Bioinformática ensamble

Bioinformática ensamble

Lee el siguiente primer:

http://www.cbcb.umd.edu/research/assembly_primer

Explica:

¿Qué es la cobertura de secuenciación?

¿Qué utilidad tiene la ecuación Lander-Waterman?

¿Porqué se originan errores de ensamblado en regiones repetitivas?

¿Qué es un contig?

¿Qué es un scaffold?

¿Qué diferencia hay entre un ensamblador de tipo Greedy y un Overlap-layout-consensus?

¿Qué es un camino Hamiltoniano?

¿Qué es un camino Euleriano?

¿Qué es un k-mer?

¿Qué diferencias hay entre BAC y WGS?

Haz una tabla con la información solicitada de los siguiente ensambladores

Nombre del programa Tipo de algoritmo Tipo de muestra Archivos de Entrada Archivos de Salida Arquitectura de procesamiento RAM Tiempo de corrida Sensibilidad Referencia
ABySS
Allpaths-LG
Euler
MIRA
Ray
SOAP de novo
SPAdes
Velvet
Minia
CLC cell
Newbler
Trinity
Velvet-oases
COPE
PEAR
FLASH
PANDASEQ
CASPER

Descarga el FASTQC (buscalo en google), sigue las instrucciones de instalación.

http://132.247.90.91/bioinfo/sra_data.fastq.gz

http://132.247.90.91/bioinfo/sra_data2.fastq.gz

 

Descarga los siguientes archivos para hacer los filtrados de calidad

¿Qué diferencias hay en la calidad entre los dos archivos?

Una de las muestras es de amplicones y otro es un genoma, puedes identificarlo?

En la versión de linux que se te dio en el curso existen varios ensambladores ya preinstalados, prueba con algún ensamblador (Mira, Velvet, etc.). Puedes parar el proceso en cualquier momento con ctrl + c. Conviene que monitorees el trabajo con top, para evaluar los recursos de memoria y procesamiento que se consumen.