Bioinformática 6 de Noviembre. Amplicones
Las herramientas y programas listados a continuación serán utilizadas para resolver los ejercicios:
pandaseq
fastqc
fastx_trimmer
qiime: assign_taxonomy.py, make_otu_table.py, biom convert
R
phyloseq: plot_bar, plot_ordination
Documentación:
http://qiime.org/scripts/index.html
https://joey711.github.io/phyloseq/tutorials-index.html
Ejercicios.
Descarga los archivos que utilizaremos para esta sesión:
https://drive.google.com/drive/folders/0B4yYJADlEqTnQW9kckpvbGlrYms?usp=sharing
1. Utilizando la herramienta fastx_trimmer recorta las lecturas crudas de amplicones (R1_sub_pe.fastq y R2_sub_pe.fastq) para que tengan una longitud de 250 pb. Ensambla las secuencias recortadas utilizando el programa Pandaseq con los siguientes calificadores -B -F -t 0.95 -l 250 -L 470 -o 10 -w assembled.fastq. ¿Qúe indican estos calificadores? Genera el reporte de calidad de los archivos originales y recortados. ¿Qué diferencias encuentras?
2. Realiza el agrupamiento al 97% de identidad de las secuencias de todas las muestras. Utiliza el script «header.fasta.number.pl» para renombrar las secuencias de cada muestra previamente al agrupamiento. ¿Cuántas secuencias de rRNA 16S tenías antes y despues del agrupamiento? ¿Cuál es el número de OTUs resultantes?
#Utiliza esta línea de comando para editar la tabla de clusters que genera CD-HIT.
perl -pne 's/\t//g;s/^.*,//g;s/\.\.\..*$//g;s/\n/\t/g;s/\>Cluster\ /\n/g;s/\>//g; eof && do{chomp; print "$_ \n"; exit}' archivo.clstr
3. Realiza la asignación taxonómica del archivo de secuencias representativas con el script de qiime «assign_taxonomy.py» con el método de RDP. ¿Qué archivo obtienes?
4. Genera una tabla de otus con el script de qiime «make_otu_table.py». Para este punto debes excluir las secuencias consideradas contaminantes (mitocondrias y cloroplastos). Revisa la tabla de taxonomía y explora la opción -e del script de qiime con la cual puedes dar una lista de los identificadores únicos que deben ser exluidos de la tabla de OTUs. ¿Qué tipo de archivo genera este script?
Posteriormente utiliza «biom convert» para pasar la tabla de otus a un formato tabular. Puedes emplear la siguiente linea de comando:
biom convert –to-tsv -i archivo.biom -o archivo_tabular.txt –table-type «Taxon table»
5. Carga los datos en R con phyloseq para poder realizar los análisis subsecuentes. En el archivo «carga_de_datos_R.txt» encontrarás las instrucciones.
Consulta los manuales de plot_bar para realizar gráficas de barras con la descripción taxonómica de cada muestra y plot_ordination para realizar gráficos de ordenamiento. Juega con las distintas opciones que se presentan en los tutoriales. https://joey711.github.io/phyloseq/tutorials-index.html
5.1 Genera un gráfico de barrras con los 50 OTUs más abundanes en cada muestra y descríbelo.
5.2 Genera gráficos de ordenamiento de las muestras por el método NMDS y PCoA. Compara los resultados. Colorea a las muestras de acuerdo a las variables de los metadatos (índice de aridez y ph)
Consulta el siguiente manual para el procesamiento de los datos y la carga de datos en R. Descarga el HTML y puedes abrirlo en Firefox.
https://drive.google.com/file/d/0B4yYJADlEqTnMlVJeE1odnYzWEU/view?usp=sharing