4 de marzo: Práctica MG-RAST
Reglas:
- Enviar por correo electrónico un PDF que responda todos los puntos de la práctica a mi correo: ldalcaraz@gmail.com
- Puede ser elaborada en equipos de un máximo 2 integrantes.
- Se reciben las prácticas hasta la media noche del día 6 de marzo de 2013.
- Pueden usar la sección de comentarios para formar los equipos y quedar de acuerdo.
- El profesor no responderá dudas hasta el día 6 de marzo en la clase.
- Considerar esto una evaluación.
Práctica:
ANÁLISIS DE AMPLICONES
1. Acceda al servidor MG-RAST (http://metagenomics.anl.gov)
2. Describa brevemente cada una de las bases de datos y herramientas bioinformáticas de anotación del MG-RAST busque en el artículo del MG-RAST y en http://press.igsb.anl.gov/mg-rast/mg-rast-for-the-impatient-readme-1st/
(Genbank, IMG, InterPro, KEGG, M5NR, Patric, Phantome, RefSeq, SEED, Swissprot, TrEMBL, COG, GO, KO, NOG, Subsystems, BLAST, Glimmer, Greengenes, LSU, SSU, RDP, BLAST)
3. Describa los menús accesibles en el MG-RAST
4. Acceda a la sección Browse
5. Seleccione un metagenoma por tipo de secuenciación de tipo Amplicones
6. ¿Qué datos le da la página de overview de cada muestra?
7. Vaya al menu download del overview de la muestra elegida, ¿qué archivos le permite descargar? ¿En qué formato se encuentran? ¿Qué programa usaría para abrir los archivos?
8. Ingrese al menú de análisis http://metagenomics.anl.gov/metagenomics.cgi?page=Analysis
9. En el menú 1 de la página de análisis seleccione: 1) Data type | Organism Abundance y seleccione las opciones (Representative Hit Classification, best hit classification, lowest comon ancestor) Describa que hace cada una de las opciones. Escoja una de las opciones y justifique porqué la va a usar para esta práctica.
10. Seleccione al menos 3 metagenomas de amplicones en la sección 2) Data Selection | Metagenomes | compare individually | public | amplicon. Use el menú de available metagenomes y paselos con las flechas de selección a selected metagenomes. Seleccione la fuente de anotación (Annotation Sources) y seleccione la(s) que considere adecuadas según el punto 2 de esta práctica.
11. Genere los parámetros de búsqueda. Max e-Value cutoff, min % Identity Cutoff, Min. Alignment Length cutoff. Para darse idea de que parámetros usar puede guiarse de la descripción del punto 6. Justifique que parámetros de búsqueda utiliza.
12. Seleccione Tabla a partir del menú 3 (Data visualization). Genere la tabla.
13. De la tabla generada. ¿Qué campos nos permite ordenar?
14. Utilice el plugin Krona que aparece cuando se genera la tabla, ¿Qué se genera? ¿Cómo se interpreta? Utilice las flechas del plugin para ver las distintas muestras. Guarde imágenes de este punto.
15. Seleccione generar una gráfica de barras en el menú 3 (Data visualization). Genere la gráfica
16. ¿Qué información da la gráfica generada? ¿A qué nivel taxonómico?
17. De click en la gráfica en cualquiera de las barras que pertenecen a Bacteria. ¿Qué sucede? ¿Si repite el proceso varias veces hasta donde se generan resultados?
18. Seleccionar generar un árbol en la barra del menu 3 (Data visualization). Genere el árbol (tree).
19. ¿Qué opciones adicionales aparecen al momento de desplegarse el árbol?
20. ¿Qué son las leaf weights?
21. De click en un nodo ¿Qué pasa? ¿Que información extra se genera?
22. Ubique un grupo único en una sola muestra y diga como llego a ubicarlo
23. Guarde una imagen del árbol.
24. Seleccione generar un heatmap en la barra del menu 3 (Data visualization). Genere el heatmap.
25. ¿De qué formas se puede agrupar el heatmap?
26. ¿Es lo mismo usar datos crudos (raw) que normalizar? ¿Que usaría y porqué?
27. ¿Qué es clustering? ¿Que es ward, single, complete, mcquity, median, centroid?
28. ¿Qué distancia será la adecuada? ¿Bray-curtis, euclidiana, maxima?
29. Pruebe distintos parámetros y re-dibuje el heatmap.
30. ¿Qué le dicen los árboles verticales del heatmap?
31. ¿Qué le dicen los árboles horizontales del heatmap?
32. ¿Qué dicen las gráficas de caja y bigotes abajo del heatmap?
33. ¿Si agrupa el heatmap a nivel de género que observa? ¿Es lo mismo que hacerlo a otros niveles taxonómicos?
34. Genere un PCoA en la barra del menu 3 (Data Visualization).
35. ¿Qué es un PCoA?
36. ¿Tiene alguna similitud con el heatmap?
37. ¿Qué se trata de responder con un PCoA? ¿Qué puede decir de la relación entre sus muestras analizadas?
38. Genere una gráfica de rarefacción en la barra del menú 3 (Data Visualization).
39. ¿Qué puede decir de las muestras que compara en base a lo que ve en la gráfica? ¿Qué es la diversidad alfa? ¿Cómo lo cálcula en este caso?
ANÁLISIS DE FUNCIONES
40. Vuelva al menú de selección de Datos (2) y seleccione ahora metagenomas WGS solamente, al menos seleccione 3. (2 Data Selection | Metagenomes | compare individually | public | WGS | available metagenomes -> )
41. Seleccione el tipo de fuente de Anotación en Subsistemas. ¿Porqué le llaman sistemas jerárquicos de clasificación?
42. Seleccione un valor de corte de e-value (CutOff) %ID y longitud de alineamientos y justifique su elección, en esta vez utiliza amino ácidos.
43. Genere una gráfica de barras. Menú 3, Data visualization, barchart.
44. ¿Qué obtiene? ¿Qué pasa si da click en una de las barras? ¿Se puede hacer recursivamente hasta que punto?
45. De la gráfica anterior seleccione el nivel máximo al que pueda acceder y en la parte inferior de la página seleccione el botón TO WORKBENCH.
46. En el worbench (pestaña verde entre el menu 3 y las gráficas). De click, ¿Qué puede hacer en el workbench?
47. Genere una tabla funcional. (2 Data Visualization -> Table -> generate)
48. Ordene la tabla y encuentre la función más representada por abundancia. (ponga un valor númerico y de Intro).
49. Seleccione la función más representada con un click en la última columna y luego de click en el boton TO WORKBENCH. ¿Que obtiene de esto en el workbench?
50. Genere un Krona Graph en el menú que aparece por encima de la tabla. Identifique la función más representada.
51. Genere un heatmap funcional. (2. Data Visualization -> Heatmap -> generate)
52. Compare la agrupación del Heatmap por el nivel 1 hasta el nivel 3. ¿Que nivel de comparación sugiere usar?
53. Del Menú 3 seleccione el botón open KEGG Mapper
54. Seleccione los mismos metagenomas en el DATA Selection con los que ha estado trabajando (los números de acceso ayudan a identificar esto rápidamente e.j. 4447970.3, 4447971.3)
55. Tiene que seleccionar primero el Target A, definir el metagenoma(s) a usar dar load data. Repetir lo mismo para el Target B y dar load data. después puesde seleccionar el menú para desplegar los datos únicos, los compartidos de A y B.
56. ¿Qué utilidad tiene dicha gráfica? ¿En qué formatos podemos guardar los datos de salida? Guarde una imagen de la gráfica para el reporte.