2017 Bioinformática Lunes 5 de septiembre
Ensamblado
$wget https://github.com/dzerbino/velvet/archive/master.zip
Entra al directorio donde descargaste Velvet.
Descomprime velvet (unzip)
entra a velvet-master
lee el contenido de README.txt
compila el programa
entra al directorio tests
¿Cuántas secuencias tiene el archivo reads.fq.gz?
Ejecuta el siguiente comando:
$fastqc reads.fq.gz
Ejecuta:
$firefox reads.fq_fastqc/fastqc_report.html
¿Qué se genera?
Ejecuta:
$evince ../Manual.pdf &
$ ../velveth ensamble 31 -fastq.gz -short reads.fq.gz
$../velvetg ensamble -cov_cutoff auto -amos_file yes
¿Qué se genera en el directorio ensamble?
¿Cuántas secuencias tiene el archivo contigs.fa? ¿Cuántas secuencias de diferencia hay con reads.fq.gz?
Si quieres entender cómo se hizo esto te recomiendo leer el artículo del ensamblador:
http://genome.cshlp.org/content/18/5/821.full
Predicción de genes codificantes
Ejercicio
1. Lee el artículo de Glimmer: https://ccb.jhu.edu/papers/glimmer2.pdf
2. Busca, que es un modelo interpolado de Markov
3. Selecciona un archivo fna (de Agrobacterium) de un cromosoma y corre la predicción de genes.
Baja el siguiente script en la carpeta en la que estes trabajando:
https://drive.google.com/file/d/0B7dtIr9rg974M25Wb3Zndkt6QkU/view?usp=sharing
Cambia sus permisos a ejecutable:
$chmod +x g3-from-scratch.csh
Ejecuta el script con el archivo de un genoma (fna)
$./g3-from-scratch.csh GENOMA.fna prefijo
prefijo= cualquier nombre que quieras que tengan los archivos
Este script hace los siguientes pasos:
long-orfs -n -t 1.15 genom.seq run1.longorfs
extract -t genom.seq run1.longorfs > run1.train
build-icm -r run1.icm < run1.train
glimmer3 -o50 -g110 -t30 genom.seq run1.icm run1
A partir del manual https://ccb.jhu.edu/software/glimmer/glim302notes.pdf
Responde:
¿Qué es cada paso?
¿Qué archivos se generan?
Ahora, hay múltiples formas de hacer esto, instala prodigal en tu computadora:
$sudo apt-get install prodigal
Luego ejecutalo, lo siguiente es un ejemplo:
$prodigal -a agro.faa -d agro.fna -s agro.genes.scores -i cromosoma.fas
¿Qué le estoy pidiendo a prodigal?
¿Qué archivos se generan?
Predicción de genes no codificantes
1. Descarga el código fuente de tRNAScanSE:
wget http://lowelab.ucsc.edu/software/tRNAscan-SE.tar.gz
, el artículo lo puedes consultar en: http://nar.oxfordjournals.org/content/25/5/0955.abstract?sid=c28dd9c3-943e-44d4-99fe-15ee8a5ac051
2. Descomprime el archivo
3. Entra al directorio de tRNAscan-SE
4. Ejecuta un ls -lh y guarda la salida a un archivo
5. Ejecuta el comando
make
6. Ejecuta el comando
make install
7. vuelve a hacer un ls -lh y guarda la salida a un nuevo archivo
8. Utiliza el comando diff y di que diferencia hay entre el archivo (4) y (7)
9. Ejecuta tRNAScan sobre el cromosoma elegido anteriormente en (4; ejercicio 1)
10. Del artículo que bajaste en 1 describe con tus palabras la figura 1
11. De las opciones de tRNAScan, que diferencia hay entre usar el calificador -i y -C?
12. ¿Qué es un modelo de covarianza?
13. Con el calificador -f genera la predicción de las estructuras secundarias.
14. Copia 1 secuencia generada en (13) y pegala en el siguiente servidor:
http://rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi
Usa los parámetros por defecto y manda una búsqueda
15. Copia la primer figura de los análisis generados en 14 y comparala con los archivos generados en (13).
Búsqueda y alineamiento estructural de los 16S rRNA
1. Descarga SSU-align ftp://selab.janelia.org/pub/software/ssu-align/ssu-align-0.1.tar.gz
2. Descomprime el archivo, entra a la carpeta
3. Lee las instrucciones de instalación (cat INSTALL)
4. Para instalar sin permisos de ROOT (su, sudo):
./configure –prefix=/home/$TU_USUARIO/bin
5. Instala, ten cuidado de actualizar ~/.bashrc con las instrucciones que salen al final de la instalación
6. Concatena todos los archivos frn
7. Corre ssu-align sobre los archivo frn
8. Ejecuta ssu-draw sobre la carpeta generada en (7)
9. Explora los archivos generados en la carpeta. Haz una lista del contenido de cada archivo en la carpeta, lo que entiendas que puede ser.
10. Visualiza el pdf generado y que es lo que se observa.
11. Compara tus respuestas de (9) con lo que dice el manual: ftp://selab.janelia.org/pub/software/ssu-align/Userguide.pdf
Extra Bonus (optativo): Alineamiento de genomas
Existen herramientas interesantes para comparar genomas completos, un método es el utilizar alineamientos entre grandes regiones genómicas. La suite MUMmer permite hacer esto, estas aplicaciones ya están instaladas en tu distribución.
Explora el manual de MUMmer:
http://mummer.sourceforge.net/manual/
Utiliza nucmer para alinear un genoma contra sí mismo (fna)
Utiliza nucmer entre dos genomas distintos (fna)
Utiliza promer para alinear dos genomas distintos (fna-fna)
Utiliza mummerplot para visualizar tus resultados, primero con la opción -l luego con la opción -c
Extra Bonus (optativo): Anotación.
El objetivo es generar la anotación de las predicciones de genes de los ejercicios anteriores (Prodigal), si no puedes usar el archivo ffn concatenado de cromosoma + plásmidos, con la base de datos del COG (Cluster of Orthologous Groups). Además de usar lo ya aprendido con cd-hit, el objetivo es generar esta figura con la especie que elijas de Agrobacterium:
Proportions of assigned functions among genes belonging to families and singletons in B. subtilis and E. coli K12. Gene functions were assigned according to the Cluster of Orthologous Genes (COGs) classification [41]. Extended gene families are considered, in which a gene belongs to a single family only (see Materials and methods).