Bioinformática 6 oct 15

Bioinformática 6 oct 15

http://132.247.90.91/bioinfo/paralogs.txt

 

Vamos a usar CD-HIT hoy

Descarguen la versión de cd-hit de github:

https://github.com/weizhongli/cdhit/releases/download/V4.6.4/cd-hit-v4.6.4-2015-0603.tar.gz

#hagan esto en el directorio donde tienen sus secuencias.
wget https://github.com/weizhongli/cdhit/releases/download/V4.6.4/cd-hit-v4.6.4-2015-0603.tar.gz
tar xvfz cd-hit-v4.6.4-2015-0603.tar.gz
perl cd-hit-v4.6.4-2015-0603/psi-cd-hit/psi-cd-hit.pl -i vitis.faa -o vitis.clstr -c 0.3

El manual de CD-HIT puede ser consultado en:

http://weizhongli-lab.org/cd-hit/wiki/doku.php?id=cd-hit_user_guide

Y el artículo en:

Weizhong Li & Adam Godzik. Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences. Bioinformatics (2006) 22:1658-1659 PDF, Pubmed

De los proteomas de una especie de Agrobacterium:

1. Realiza un agrupamiento por familias de proteínas usando CD-HIT con un mínimo de 30% de identidad y al menos un 70% de cobertura de las secuencias. ¿Cómo afecta el tamaño de palabra a la búsqueda?

2. ¿Qué programa usaste? ¿Con qué calificadores? ¿Qué archivos se producen a la salida?

3. ¿Qué opciones de programa dentro de los paquetes de CD-HIT tienes para comparar 2 bases de datos de proteínas?

4. Haz un archivo concatenado con todos los RNAs de todas las especies de Agrobacterium, se encuentran dentro de los archivos frn. ¿Qué programa de cd-hit utilizas (usa un clustering del 0.97)? ¿Cuántas secuencias existen en el archivo original (concatenado de todos los frn)? ¿Cuántas secuencias tienen los archivos de salida (clustering)?

 

Posteriormente, vamos a hacer alineamientos entre todos los genomas de las especies de Agrobacterium y tratar de determinar quienes son los más parecidos entre sí (visualmente).  Para este objetivo vamos a utilizar el programa MUMmer.

El artículo lo pueden consultar en:

Kurtz S, Phillippy A, Delcher AL, Smoot M, Shumway M, Antonescu C, et al. Versatile and open software for comparing large genomes. Genome Biol. 2004;5: 0. Available: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14759262

El manual de mummer lo pueden consultar en la siguiente página:

 http://mummer.sourceforge.net/manual/#aligningfinished

Si tienes problemas corriendo mummerplot utiliza el siguiente comando:


sudo apt-get install gnuplot-x11

 

1. Alinea dos genomas completos usando mummer y graficalos, pueden guiarse de los ejemplos que se proponen en el manual, conviene que revisen para qué sirve cada comando:

 

 

2. Descarga el siguiente genoma (ftp://ftp.ncbi.nih.gov/genomes/Bacteria/Escherichia_coli_K_12_substr__MG1655_uid57779/NC_000913.fna)  y utiliza nucmer para alinearlo contra el genoma de Agrobacterium que desees. Grafica los resultados (mummerplot)

3. Alinea el mismo genoma con promer, en lugar de nucmer. Grafica los resultados (mummerplot)

4. Experimenta con las opciones mummerplot (-l , -c, -S, -t, etc.)

5. ¿Qué puedes concluir de la comparación entre usar nucmer y promer en la comparación entre E. coli y Agrobacterium?