Cómo recuperar 150,000 genomas a partir de metagenomas

Cómo recuperar 150,000 genomas a partir de metagenomas

La metagenómica trata de describir comunidades microbianas enteras mediante la secuenciación masiva de DNA. Sin embargo, la mayor parte de la secuenciación depende de lecturas de DNA relativamente cortas, aunque esto va en mejoría con híbridos del tipo PacBio o el Oxford Nanopore. El reto consiste en armar estos rompecabezas en unidades discretas, si se habla de taxonomía pienso que está mejor resuelto, con genes conservados como el 16S rRNA, ITS o genes codificantes conservados, que a tratar de armar de novo distintos genomas ambientales.

En este sentido el grupo de Nicola Segata en el artículo de Pasolli et al. (2019), describen una línea de ensamblado, control de calidad, anotación de reconstrucción de genomas a partir de 9,428 metagenomas. Los resultados son espectaculares y logran reconstruir más de 150,000 genomas bacterianos de los cuales, 4,930 quedaron enmarcados en especies sencillas, de los cuales 3,796 son totalmente nuevos, sin representantes en las bases de datos.

Me resulta muy interesante el enfoque, ya que se hace a partir de metagenomas relacionados con el microbioma humano. La capacidad de poder reconstruir a partir de conjuntos de datos individuales metagenomas de lo más explorado, hace patente que la mayor parte de los datos son publicados enumerando unos pocos ejemplos, pero con mucho jugo por ser exprimido.

Vale la pena revisar la metodología estrella* (*en el artículo le llaman STAR methods), para evaluar la posibilidad de ensamblar genomas a partir de nuestros datos, así como validar la “novedad” de los mismos. Lo tratan de resumir en la siguiente figura:

Figure 6. Methodology Overview and Quality Characteristics for the 154,723 Reconstructed Genomes
(A) Overview of the overall strategy and datasets employed for the reconstruction of microbial genomesand their organizations in SGBs.
(B) Completeness and contamination values estimated by CheckM are reported for LQ (low quality, completeness <50% or contamination >5%), MQ (completeness in the range [50%, 90%] and contamination <5%), and HQ (completeness >90%, contamination <5%, CMSeq strain heterogeneity <0.5%) genomes. LQ genomes are excluded from the rest of the analysis.
(C) Comparisons between the genomes from UniRef/NCBI used as references and our reconstructed genomes.

Pero la tabla que ponen de los métodos estrella enumera todas las herramientas utilizadas en el proceso:

la tabla completa: https://www.sciencedirect.com/science/article/pii/S0092867419300017?via%3Dihub#undtbl1

La verdad el trabajo es impactante, en la masividad pienso que el principal aporte es metodológico, y hay que ser cautelosos. En un artículo que publicamos recientemente (Barajas et al. 2019), vimos que pyani tiene problemas calculando las identidades nucleotídicas cuando se trabaja más allá de la misma especie. Esto por falsos positivos que solo calculan los aciertos positivos por lo que con algunos genes transferidos horizontalmente o muy pocos genes hiperconservados dentro del género se puede inflar la cifra. Pyani es utilizado aquí para evaluar los genomas reconstruidos automáticamente por su pipeline y aislados.

Conviene revisar los métodos expuestos aquí y evaluar que partes nos conviene incorporar a nuestros análisis metagenómicos.

Referencias:

Pasolli E., Asnicar F., Manara S., Zolfo M., Karcher N., Armanini F., Beghini F., Manghi P., Tett A., Ghensi P., Collado MC., Rice BL., DuLong C., Morgan XC., Golden CD., Quince C., Huttenhower C., Segata N. 2019. Extensive Unexplored Human Microbiome Diversity Revealed by Over 150,000 Genomes from Metagenomes Spanning Age, Geography, and Lifestyle. Cell 176:649–662.e20. DOI: 10.1016/j.cell.2019.01.001.

Barajas HR., Romero MF., Martínez-Sánchez S., Alcaraz LD. 2019. Global genomic similarity and core genome sequence diversity of the Streptococcus genus as a toolkit to identify closely related bacterial species in complex environments. PeerJ 6:e6233. DOI: 10.7717/peerj.6233.