Bioinformática ejercicio 18 de septiembre

Bioinformática ejercicio 18 de septiembre

1. Lee el siguiente primer:

http://www.cbcb.umd.edu/research/assembly_primer

Explica:

¿Qué es la cobertura de secuenciación?

¿Qué utilidad tiene la ecuación Lander-Waterman?

¿Porqué se originan errores de ensamblado en regiones repetitivas?

¿Qué es un contig?

¿Qué es un scaffold?

¿Qué diferencia hay entre un ensamblador de tipo Greedy y un Overlap-layout-consensus?

¿Qué es un camino Hamiltoniano?

¿Qué es un camino Euleriano?

¿Qué es un k-mer?

¿Qué diferencias hay entre BAC y WGS?

2. Completa la tabla:

https://docs.google.com/spreadsheets/d/1SZdaNRvO9NQKe1L9v–dlLfoGlQPlo0PI2dMHdjmbTc/edit?usp=sharing

3. Descarga e instala el programa FASTQC (buscalo en google), sigue las instrucciones de instalación. Descarga los archivos de lecturas siguientes:

sra_data.fastq.gz

sra_data2.fastq.gz

Corre el programa FASTQC con estos archivos.

¿Qué diferencias hay en la calidad entre los dos archivos?

Una de las muestras es de amplicones y otro es un genoma, puedes identificarlo?

4. Vamos a ensamblar el genoma de Escherichia coli TY-2482, para ello descarga los archivos de las lecturas:

reads.zip

Ahora descarga el programa velvet: (velvet-master.zip). Instálalo siguiendo las instrucciones del archivo README y cuando uses el comando “make” agrega la opción de utilizar k-meros de 51 pares de bases:

make MAXKMERLENGTH=51

Ahora instala el programa assembly stats (assembly-stats-master.zip).

Revisa el manual de velvet (https://github.com/dzerbino/velvet/wiki/Manual) y usa este programa para ensamblar las lecturas de E. coli. Lleva a cabo tres ensamblados, el primero con k de 31, luego 41 y finalmente con 51.

Observa las diferencias de los diferentes ensamblados con el programa assembly stats y describe cómo cambiaron las características del ensamblado con los diferentes valores de K. ¿Qué versión usarías como definitiva?