El metapangenoma. Una enfoque útil para resolver preguntas en ecología microbiana

El metapangenoma. Una enfoque útil para resolver preguntas en ecología microbiana

El pangenoma es un concepto que se refiere al conjunto total de genes dentro de una especie o género bacterianos. Este se divide en genes compartidos por todos los miembros de la especie (núcleo) y en genes exclusivos de algunos miembros (accesorios). Este tipo de información se ha generado a partir de bacterias aisladas con genomas  secuenciados, lo cual es útil para asociar genes particulares a distintos estilos de vida de las bacterias que pueden conferir adaptación a sus ambientes de origen. Sin embargo, este tipo de análisis no refieren a un nivel poblacional y para este efecto, el reclutamiento de genes metagenómicos contra pangenomas de referencia puede ser útil para encontrar familias génicas que puedan explicar teorías ecológicas en poblaciones bacterianas. 

En este trabajo, los autores exploran la distribución de familias génicas dentro del pangenoma de Prochlorococcus en metagenomas de diferentes océanos del mundo. Éste es un género bacteriano fotosintético con alta prevalencia en sistemas marinos y se divide en 6 clados filogenéticos que presentan adaptaciones a distintas condiciones de intensidad lumínica (HL-I/II y LL-I/II/II/IV). 

El pangenoma de Prochlorococcus consta de 7,385 familias génicas que dividieron en cinco conjuntos diferentes dependiendo de su ocurrencia en los genomas dependiendo de sus adaptaciones a la cantidad de luz: Genes núcleo de HL + LL, HL, LL y singletons y genes que no caen en ninguna de esas categorías. Utilizando esta información logran detectar a los 6 distintos clados que conforman al género, resolviendo politomías que no pueden ser resueltas con análisis filogenéticos clásicos, remarcando las ventajas del uso de la información genómica completa para mejorar análisis filogenéticos. 

Figure 1 Organization of Prochlorococcus genomes based on shared gene clusters compared to phy-
logenomics. The dendrograms on the top shows the clustering of 31 isolate genomes based on the distri-
bution of 7,385 gene clusters recovered from the pangenomic analysis (Euclidian distance and ward clus-
tering). The tree at the bottom organizes the same genomes based on phylogenomics using 37 concate-
nated core genes. Colors indicate the phylogenetic affiliations of genomes based on published literature

Posteriormente analizaron el metapangenoma para poder realizar la conexión entre las abundancias de familias génicas dentro de las distintas muestras oceánicas y su distribución en los 31 genomas utilizados en el análisis pangenómico. De acuerdo a estos análisis observaron que los genomas de HL-II se agrupan de acuerdo a su contenido relativo de genes metagenómicos detectados (alto/medio/bajo), particularmente encuentran un menor número de genes relacionados a la reparación de DNA en los genomas de contenido bajo, así como algunos genes de metabolismo de carbohidratos. Por otro lado, al caracterizar los genes ambientales núcleo y accesorios, encontraron que la mayoría de genes conservados en todos los ambientes son genes que están presentes en los genomas núcleo de HL + LL, HL y LL, mientras que una alta proporción de genes únicos de los genomas son genes accesorios ambientales. Ademś de esto, buscaron los genes ambientales núcleo y accesorios en genomas obtenidos por secuenciación de células individuales y encontraron que distintos genes de metabolismo de carbohidratos están dispersos en regiones genómicas hipervariables y que finalmente pueden tener una repercusión en la adecuación de las poblaciones.

Figure 3 The metapangenome of Prochlorococcus. Each one of the 7,385 gene clusters contains one or more genes contributed by one or more isolate genomes. Bars in the 31 first layers indicate the occurrence of gene clusters in a given isolate genome. Gene clusters are organized based on their distribution across genomes (i.e., gene clusters that co-occur in the same group of isolates are closer to each other), and genomes are organized based on gene clusters they share using Euclidian distance and ward ordination. The three next layers describe the gene clusters in which at least one gene was functionally annotated using Pfam, ggNOGs, or COGs. Another layer describes the ratio of environmental core versus environmental accessory genes (ECGs/EAGs) within each PC. Gray areas account for the genes in genomes undetected in the metagenomic dataset. Finally, the last layer corresponds to our selections of gene clusters. The ‘‘HL + LL Core’’ selection corresponds to the gene clusters that contained genes from all genomes. The ‘‘LL Core’’ and ‘‘HL Core’’ selections correspond to clusters that contained genes characteristic to the LL- and HL- adapted genomes, respectively. The last selection (‘‘Singletons’’) corresponds to clusters that contained one or multiple genes from a single genome. The right-hand side section of the figure provides additional data for each isolate. The bottom rectangle displays the relative distribution of genomes across 93 metagenomes and is followed by layers that show the average distribution of each isolate in the metagenomic dataset and the phylogenetic clades to which they belong. The dendrograms on the top represent the hierarchical clustering of genomes based on the occurrence of gene clusters.

Los autores concluyen que la información de los pagenomas y metagenomas es útil para ligar la abundancia de genes núcleo y accesorios con características ambientales, que finalmente puedan ser sujetos experimentales para investigar cuestiones como la partición de nicho o genes que provean adecuación dentro de una comunidad microbiana.

Delmont, Tom O., and A. Murat Eren. «Linking pangenomes and metagenomes: the Prochlorococcus metapangenome.» PeerJ 6 (2018): e4320.