2017 Bioinformática Lunes 5 de septiembre

2017 Bioinformática Lunes 5 de septiembre

Ensamblado

$wget https://github.com/dzerbino/velvet/archive/master.zip

Entra al directorio donde descargaste Velvet.

Descomprime velvet (unzip)

entra a velvet-master

lee el contenido de README.txt

compila el programa

entra al directorio tests

¿Cuántas secuencias tiene el archivo reads.fq.gz?

Ejecuta el siguiente comando:

$fastqc reads.fq.gz

Ejecuta:

$firefox reads.fq_fastqc/fastqc_report.html

¿Qué se genera?

 

Ejecuta:

$evince ../Manual.pdf &

$ ../velveth ensamble 31 -fastq.gz -short reads.fq.gz

$../velvetg ensamble -cov_cutoff auto -amos_file yes

¿Qué se genera en el directorio ensamble?

¿Cuántas secuencias tiene el archivo contigs.fa? ¿Cuántas secuencias de diferencia hay con reads.fq.gz?

 

Si quieres entender cómo se hizo esto te recomiendo leer el artículo del ensamblador:

 

http://genome.cshlp.org/content/18/5/821.full

 

 

Predicción de genes codificantes

Ejercicio

1. Lee el artículo de Glimmer: https://ccb.jhu.edu/papers/glimmer2.pdf

 

2. Busca, que es un modelo interpolado de Markov

3. Selecciona un archivo fna (de Agrobacterium) de un cromosoma y corre la predicción de genes.

Baja el siguiente script en la carpeta en la que estes trabajando:

https://drive.google.com/file/d/0B7dtIr9rg974M25Wb3Zndkt6QkU/view?usp=sharing

 

Cambia sus permisos a ejecutable:

 

$chmod +x g3-from-scratch.csh

Ejecuta el script con el archivo de un genoma (fna)

 

$./g3-from-scratch.csh GENOMA.fna prefijo

 

prefijo= cualquier nombre que quieras que tengan los archivos

 

Este script hace los siguientes pasos:

 

long-orfs -n -t 1.15 genom.seq run1.longorfs
extract -t genom.seq run1.longorfs > run1.train
build-icm -r run1.icm < run1.train
glimmer3 -o50 -g110 -t30 genom.seq run1.icm run1

A partir del manual https://ccb.jhu.edu/software/glimmer/glim302notes.pdf

Responde:

¿Qué es cada paso?

¿Qué archivos se generan?

Ahora, hay múltiples formas de hacer esto, instala prodigal en tu computadora:

$sudo apt-get install prodigal

Luego ejecutalo, lo siguiente es un ejemplo:

$prodigal -a agro.faa -d agro.fna -s agro.genes.scores -i cromosoma.fas

¿Qué le estoy pidiendo a prodigal?

¿Qué archivos se generan?

Predicción de genes no codificantes

1. Descarga el código fuente de tRNAScanSE:

wget http://lowelab.ucsc.edu/software/tRNAscan-SE.tar.gz

, el artículo lo puedes consultar en: http://nar.oxfordjournals.org/content/25/5/0955.abstract?sid=c28dd9c3-943e-44d4-99fe-15ee8a5ac051

2. Descomprime el archivo

3. Entra al directorio de tRNAscan-SE

4. Ejecuta un ls -lh y guarda la salida a un archivo

5. Ejecuta el comando

make

6. Ejecuta el comando

make install

7. vuelve a hacer un ls -lh y guarda la salida a un nuevo archivo

8. Utiliza el comando diff y di que diferencia hay entre el archivo (4) y (7)

9. Ejecuta tRNAScan sobre el cromosoma elegido anteriormente en (4; ejercicio 1)

10. Del artículo que bajaste en 1 describe con tus palabras la figura 1

11. De las opciones de tRNAScan, que diferencia hay entre usar el calificador -i y -C?

12. ¿Qué es un modelo de covarianza?

13. Con el calificador -f genera la predicción de las estructuras secundarias.

14. Copia 1 secuencia generada en (13) y pegala en el siguiente servidor:

http://rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi

Usa los parámetros por defecto y manda una búsqueda

15. Copia la primer figura de los análisis generados en 14 y comparala con los archivos generados en (13).

Búsqueda y alineamiento estructural de los 16S rRNA

1. Descarga SSU-align ftp://selab.janelia.org/pub/software/ssu-align/ssu-align-0.1.tar.gz

2. Descomprime el archivo, entra a la carpeta

3. Lee las instrucciones de instalación (cat INSTALL)

4. Para instalar sin permisos de ROOT (su, sudo):

./configure –prefix=/home/$TU_USUARIO/bin

5. Instala, ten cuidado de actualizar ~/.bashrc con las instrucciones que salen al final de la instalación

6. Concatena todos los archivos frn

7. Corre ssu-align sobre los archivo frn

8. Ejecuta ssu-draw sobre la carpeta generada en (7)

9. Explora los archivos generados en la carpeta. Haz una lista del contenido de cada archivo en la carpeta, lo que entiendas que puede ser.

10. Visualiza el pdf generado y que es lo que se observa.

11. Compara tus respuestas de (9) con lo que dice el manual: ftp://selab.janelia.org/pub/software/ssu-align/Userguide.pdf

Extra Bonus (optativo): Alineamiento de genomas

Existen herramientas interesantes para comparar genomas completos, un método es el utilizar alineamientos entre grandes regiones genómicas. La suite MUMmer permite hacer esto, estas aplicaciones ya están instaladas en tu distribución.

Explora el manual de MUMmer:

http://mummer.sourceforge.net/manual/

Utiliza nucmer para alinear un genoma contra sí mismo (fna)

Utiliza nucmer entre dos genomas distintos (fna)

Utiliza promer para alinear dos genomas distintos (fna-fna)

Utiliza mummerplot para visualizar tus resultados, primero con la opción -l luego con la opción -c

 

Extra Bonus (optativo): Anotación.

El objetivo es generar la anotación de las predicciones de genes de los ejercicios anteriores (Prodigal), si no puedes usar el archivo ffn concatenado de cromosoma + plásmidos, con la base de datos del COG (Cluster of Orthologous Groups). Además de usar lo ya aprendido con cd-hit, el objetivo es generar esta figura con la especie que elijas de Agrobacterium:

 

 

Proportions of assigned functions among genes belonging to families and singletons in B. subtilis and E. coli K12. Gene functions were assigned according to the Cluster of Orthologous Genes (COGs) classification [41]. Extended gene families are considered, in which a gene belongs to a single family only (see Materials and methods).

Published online 2004 Mar 18. doi:  10.1186/gb-2004-5-4-r27
La base de datos para anotar la puedes descargar de la siguiente dirección:
El criterio mínimo de corte es 30% de identidad y un 70% de longitud de alineamiento entre la secuencia problema y la base de datos.