Posgrado: Sesión práctica Jueves 13 de Marzo
Para la sesión de hoy no se garantizan los resultados si no se esta usando bio-linux, por los programas que hay que instalar y sus dependencias.
Prerequisitos:
fastx toolkit http://hannonlab.cshl.edu/fastx_toolkit/download.html
velvet https://www.ebi.ac.uk/~zerbino/velvet/
glimmer3 http://ccb.jhu.edu/software/glimmer/index.shtml
Artemis https://www.sanger.ac.uk/resources/software/artemis/ (Que puede ejecutarse desde la web, en este link, se necesita Java: https://www.sanger.ac.uk/resources/software/artemis/java/artemis.jnlp )
Ensamblando y verificación de calidad
1. Descarga los datos de prueba:
http://web.ecologia.unam.mx/laboratorios/genomica/shared-data/ensamblado.tar.gz
2. Descomprime los archivos:
tar xvfz ensamblado.tar.gz
3. ¿Cómo se podrían comprimir de nueva cuenta los resultados? ¿Qué es tar? ¿Qué son los calificadores xvfz?
4. Explora el archivo fastq ¿Qué contiene?
5. Ejecuta el comando siguiente:
cd ensamblado fastx_quality_stats -i mt_reads.fastq -Q33 -o stats.txt
*Q33 es necesario por las diferencias en codificación entre Illumina, Sanger y otras tecnologías, puedes revisar que es en la documentación del programa
¿Qué contiene el archivo que se genera?
6. Ahora ejecuta el siguiente comando:
fastq_quality_boxplot_graph.sh -i stats.txt -o plot.png -t prueba_de_calidad
7. Abre el archivo generado:
eog plot.png &
si falla porqué tratas de accesar remotamente utiliza qiv
qiv plot.png &
8. ¿Qué dice la gráfica? ¿Cuál es el valor promedio de calidad? Si la calidad de la secuencia influencia directamente en la calidad del ensamblado, ¿Dónde y que secuencias cortarías?
9. Estas secuencias en particular tienen un barcode en las primeras 8 posiciones, para dividirlo se utiliza las siguientes instrucciones:
crea el directorio resultado, en el directorio en el que trabajas,
mkdir resultado fastx_barcode_splitter.pl < mt_reads.fastq --bcfile mt_barcodes.txt --bol --suffix .fastq --prefix resultado/ cd resultado
¿Qué se genera, en donde se encuentra, qué contiene el archivo mt1, el archivo mt2?
10. en el directorio resultado, se puede llevar a cabo la limpieza de las secuencias de baja calidad, decididas en el punto 8, además de quitar el código de barras de las primeras 8 posiciones de la secuencia.
Para el código de barras utiliza:
fastx_trimmer -i mt1.fastq -f 8 -o cortado_mt1.fastq -Q33
¿Qué estoy pidiendo con el calificador -f 8?
Para quitar las secuencias de baja calidad
fastq_quality_filter -i cortado_mt1.fastq -q 25 -p 80 -o calidad_cortado_mt1.fastq -Q33 -v
¿Qué estoy pidiendo con el calificador -q 25? ¿Con el calificador -p 80?
Ensamblado con Velvet:
Te recomiendo leer el artículo: 1. Zerbino, D. R. . & Birney, E. Velvet: algorithms for de novo short read assembly using de bruijn graphs. Genome Res. 18, 821–829 (2008).
Además de entender los paths eulerianos, qué es el caballo de batalla detrás de esto:
http://en.wikipedia.org/wiki/Eulerian_path
Así también las gráficas de Bruijin:
http://en.wikipedia.org/wiki/De_Bruijn_graph
Suerte.
11. Para ensamblar:
velveth velvet_k21 21 -short -fastq calidad_cortado_mt1.fastq velvetg velvet_k21 -read_trkg yes -amos_file yes
12. Los resultados los puedes visualizar de la siguiente forma:
tablet velvet_k21/velvet_asm.afg &
¿Cuántos contigs tienes? ¿Qué es k21? ¿Qué hace velveth? ¿Qué hace velvetg? ¿Cómo se podría mejorar el ensamblado?
13. Ejecuta el siguiente comando:
gnx-tools velvet_k21/contigs.fa
¿Qué información da? ¿Qué puedes concluir del estadístico N50 de este ensamblado (http://en.wikipedia.org/wiki/N50_statistic)?
14. Usa los siguientes comandos:
ln -s ../abyss_contigs.fa contigs.fa
csh ../g3-from-scratch contigs.fa glimmer
perl ../glimmer_to_gbk.perl < glimmer.predict > glimmer.gbk
artemis contigs.fa
Cuando se abra la ventana de acceso en Artemis selecciona File -> Read an Entry y selecciona el archivo glimmer.gbk
¿Qué está haciendo g3-from-scratch? abre el archivo para contestar esto
¿Qué contiene el archivo .gbk? ¿Qué te muestra Artemis?
Luego, ¿qué se haría con los ORFs, para anotar funciones?