Bioinformática 16 de octubre 2017
El día de hoy quiero que hagan un ejercicio de genómica comparativa, un diagrama de Venn comparando el número de proteínas compartidas por al menos 4 especies de Agrobacterium que están analizando.
Sugerencias:
1. Utiliza BLASTp para hacer tus comparaciones.
2. La clave está en los identificadores.
3. Un formato tabular de reporte de BLAST puede ayudar.
4. Para el diagrama de Venn pueden utilizar esta herramienta online si revisas bien como funciona puedes obtener la clave de que elementos necesitas para hacer el diagrama de Venn
5. En los aciertos de BLAST siempre existe la posibilidad de tener duplicados, para removerlos puedes correr el siguiente código:
#sugerencia de como correr un par de blasts, no se olviden que hay que formatear las bases de datos
blastp -db database -word_size 6 -query query -outfmt 6 -evalue 1e-10 -num_alignments 10 -out Salida.bout
#oneliner para concatenar salidas de blast, ordenarlas por valor de bitscore, remover duplicados con el mismo valor de bitscore se guardan en el archivo: best_uniq
cat Salida.bout | perl -pe ' $name_col=0; $score_col=11; while(<>) { s/\r?\n//; @F=split /\t/, $_; ($n, $s) = @F[$name_col, $score_col]; if (! exists($max{$n})) { push @names, $n }; if (! exists($max{$n}) || $s > $max{$n}) { $max{$n} = $s; $best{$n} = () }; if ($s == $max{$n}) { $best{$n} .= "$_\n" }; } for $n (@names) { print $best{$n} } ' >best; perl -e ' $column=0; $unique=0; while(<>) { s/\r?\n//; @F=split /\t/, $_; if (! ($save{$F[$column]}++)) { print "$_\n"; $unique++ } } ' best >best_uniq; rm best
Para la siguiente sesión hay que leer el capítulo «Reconstrucción de la historia de cambio de los caracteres». En este capítulo, el Dr. León Martínez Castilla logra recapitular varios conceptos que hemos estado revisando en clase.
El libro completo lo pueden descargar del sitio del inecc o conseguir una edición impresa:
http://www2.inecc.gob.mx/publicaciones/consultaPublicacion.html?id_pub=530