Cómo recuperar 150,000 genomas a partir de metagenomas
La metagenómica trata de describir comunidades microbianas enteras mediante la secuenciación masiva de DNA. Sin embargo, la mayor parte de la secuenciación depende de lecturas de DNA relativamente cortas, aunque esto va en mejoría con híbridos del tipo PacBio o el Oxford Nanopore. El reto consiste en armar estos rompecabezas en unidades discretas, si se habla de taxonomía pienso que está mejor resuelto, con genes conservados como el 16S rRNA, ITS o genes codificantes conservados, que a tratar de armar de novo distintos genomas ambientales.
En este sentido el grupo de Nicola Segata en el artículo de Pasolli et al. (2019), describen una línea de ensamblado, control de calidad, anotación de reconstrucción de genomas a partir de 9,428 metagenomas. Los resultados son espectaculares y logran reconstruir más de 150,000 genomas bacterianos de los cuales, 4,930 quedaron enmarcados en especies sencillas, de los cuales 3,796 son totalmente nuevos, sin representantes en las bases de datos.
Me resulta muy interesante el enfoque, ya que se hace a partir de metagenomas relacionados con el microbioma humano. La capacidad de poder reconstruir a partir de conjuntos de datos individuales metagenomas de lo más explorado, hace patente que la mayor parte de los datos son publicados enumerando unos pocos ejemplos, pero con mucho jugo por ser exprimido.
Vale la pena revisar la metodología estrella* (*en el artículo le llaman STAR methods), para evaluar la posibilidad de ensamblar genomas a partir de nuestros datos, así como validar la “novedad” de los mismos. Lo tratan de resumir en la siguiente figura:
Pero la tabla que ponen de los métodos estrella enumera todas las herramientas utilizadas en el proceso:
La verdad el trabajo es impactante, en la masividad pienso que el principal aporte es metodológico, y hay que ser cautelosos. En un artículo que publicamos recientemente (Barajas et al. 2019), vimos que pyani tiene problemas calculando las identidades nucleotídicas cuando se trabaja más allá de la misma especie. Esto por falsos positivos que solo calculan los aciertos positivos por lo que con algunos genes transferidos horizontalmente o muy pocos genes hiperconservados dentro del género se puede inflar la cifra. Pyani es utilizado aquí para evaluar los genomas reconstruidos automáticamente por su pipeline y aislados.
Conviene revisar los métodos expuestos aquí y evaluar que partes nos conviene incorporar a nuestros análisis metagenómicos.
Referencias:
Pasolli E., Asnicar F., Manara S., Zolfo M., Karcher N., Armanini F., Beghini F., Manghi P., Tett A., Ghensi P., Collado MC., Rice BL., DuLong C., Morgan XC., Golden CD., Quince C., Huttenhower C., Segata N. 2019. Extensive Unexplored Human Microbiome Diversity Revealed by Over 150,000 Genomes from Metagenomes Spanning Age, Geography, and Lifestyle. Cell 176:649–662.e20. DOI: 10.1016/j.cell.2019.01.001.
Barajas HR., Romero MF., Martínez-Sánchez S., Alcaraz LD. 2019. Global genomic similarity and core genome sequence diversity of the Streptococcus genus as a toolkit to identify closely related bacterial species in complex environments. PeerJ 6:e6233. DOI: 10.7717/peerj.6233.