Bioinformática ejercicio 18 de septiembre
1. Lee el siguiente primer:
http://www.cbcb.umd.edu/research/assembly_primer
Explica:
¿Qué es la cobertura de secuenciación?
¿Qué utilidad tiene la ecuación Lander-Waterman?
¿Porqué se originan errores de ensamblado en regiones repetitivas?
¿Qué es un contig?
¿Qué es un scaffold?
¿Qué diferencia hay entre un ensamblador de tipo Greedy y un Overlap-layout-consensus?
¿Qué es un camino Hamiltoniano?
¿Qué es un camino Euleriano?
¿Qué es un k-mer?
¿Qué diferencias hay entre BAC y WGS?
2. Completa la tabla:
https://docs.google.com/spreadsheets/d/1SZdaNRvO9NQKe1L9v–dlLfoGlQPlo0PI2dMHdjmbTc/edit?usp=sharing
3. Descarga e instala el programa FASTQC (buscalo en google), sigue las instrucciones de instalación. Descarga los archivos de lecturas siguientes:
Corre el programa FASTQC con estos archivos.
¿Qué diferencias hay en la calidad entre los dos archivos?
Una de las muestras es de amplicones y otro es un genoma, puedes identificarlo?
4. Vamos a ensamblar el genoma de Escherichia coli TY-2482, para ello descarga los archivos de las lecturas:
Ahora descarga el programa velvet: (velvet-master.zip). Instálalo siguiendo las instrucciones del archivo README y cuando uses el comando “make” agrega la opción de utilizar k-meros de 51 pares de bases:
make MAXKMERLENGTH=51
Ahora instala el programa assembly stats (assembly-stats-master.zip).
Revisa el manual de velvet (https://github.com/dzerbino/velvet/wiki/Manual) y usa este programa para ensamblar las lecturas de E. coli. Lleva a cabo tres ensamblados, el primero con k de 31, luego 41 y finalmente con 51.
Observa las diferencias de los diferentes ensamblados con el programa assembly stats y describe cómo cambiaron las características del ensamblado con los diferentes valores de K. ¿Qué versión usarías como definitiva?