Bioinformática ensamble
Lee el siguiente primer:
http://www.cbcb.umd.edu/research/assembly_primer
Explica:
¿Qué es la cobertura de secuenciación?
¿Qué utilidad tiene la ecuación Lander-Waterman?
¿Porqué se originan errores de ensamblado en regiones repetitivas?
¿Qué es un contig?
¿Qué es un scaffold?
¿Qué diferencia hay entre un ensamblador de tipo Greedy y un Overlap-layout-consensus?
¿Qué es un camino Hamiltoniano?
¿Qué es un camino Euleriano?
¿Qué es un k-mer?
¿Qué diferencias hay entre BAC y WGS?
Haz una tabla con la información solicitada de los siguiente ensambladores
Nombre del programa | Tipo de algoritmo | Tipo de muestra | Archivos de Entrada | Archivos de Salida | Arquitectura de procesamiento | RAM | Tiempo de corrida | Sensibilidad | Referencia |
ABySS | |||||||||
Allpaths-LG | |||||||||
Euler | |||||||||
MIRA | |||||||||
Ray | |||||||||
SOAP de novo | |||||||||
SPAdes | |||||||||
Velvet | |||||||||
Minia | |||||||||
CLC cell | |||||||||
Newbler | |||||||||
Trinity | |||||||||
Velvet-oases | |||||||||
COPE | |||||||||
PEAR | |||||||||
FLASH | |||||||||
PANDASEQ | |||||||||
CASPER |
Descarga el FASTQC (buscalo en google), sigue las instrucciones de instalación.
http://132.247.90.91/bioinfo/sra_data.fastq.gz
http://132.247.90.91/bioinfo/sra_data2.fastq.gz
Descarga los siguientes archivos para hacer los filtrados de calidad
¿Qué diferencias hay en la calidad entre los dos archivos?
Una de las muestras es de amplicones y otro es un genoma, puedes identificarlo?
En la versión de linux que se te dio en el curso existen varios ensambladores ya preinstalados, prueba con algún ensamblador (Mira, Velvet, etc.). Puedes parar el proceso en cualquier momento con ctrl + c. Conviene que monitorees el trabajo con top, para evaluar los recursos de memoria y procesamiento que se consumen.