Recuperando genomas de baja abundancia con ensamblados metagenómicos masivos

Recuperando genomas de baja abundancia con ensamblados metagenómicos masivos

Gran parte de los organismos que componen una comunidad microbiana se encuentran en baja abundancia. En la mayoría de los análisis por secuenciación metagenómica, los fragmentos genómicos que se logran armar pertenecen a los organismos dominantes, mientras que las secuencias de los organismos de baja abundancia son escasas. Una forma de recuperar contigs de estos organismos raros es llevar a cabo un ensamblado combinado con varias muestras del mismo experimento las cuales puedan contener secuencias suficientes para armar contigs de los genomas que se encuentran en baja abundancia. Sin embargo los ensamblados combinados fácilmente pueden requerir un poder de cómputo en la escala de cientos de giga bytes en memoria RAM y docenas de procesadores para completar el trabajo en un tiempo razonable.

Genome fractions for references from MarRef found in the WA assemblies.

Con estos problemas en mente, Steven Hofmeyr y compañía diseñaron MetaHipMer, que es un ensamblador de metagenomas que permite distribuir ensamblados combinados de miles de millones de secuencias en clusters de computadoras. Esto lo lograron usando UPC++, que es una librería del lenguaje de programación C++ que permite una veloz transferencia de información entre computadoras conectadas en una red. Los autores analizaron un dataset (WA) de metagenomas del Océano Ártico con dos mil millones de lecturas en 12 muestras con un tamaño total de 822 GB en disco duro. De una colección de casi mil genomas de referencia, encontraron 8 genomas con una cobertura mayor al 10% del genoma representada en los contigs. El coensamblado recupero el mayor porcentaje de 6 de estos 8 genomas.

Genome fraction vs depth for synthetic reference genomes within WAmix.

Para demostrar que efectivamente el coensamblado de MetaHipMer recupera genomas de baja abundancia, se agregaron 25 genomas encontrados en su dataset original pero con una cobertura menor al 1% y volvieron a llevar a cabo los ensamblados (WAmix). Encontraron que el coensamblado tuvo una tasa de error menor al multiensamblado (combinar ensamblados de muestras individuales) y recuperó un mayor porcentaje de estos genomas (94% contra 46%). Además, el coensamblado recuperó gran parte de estos genomas incluso en valores bajos de cobertura. Los autores compararon el desempeño de MetaHipMer con otros ensambladores populares como metaSPAdes y MEGAHIT. metaSPAdes recuperó pocos genes ribosomales y pocos MAGs de buena calidad, mientras que MEGAHIT tuvo el mayor número de contigs quiméricos. Por su parte, MetaHipMer tuvo ensamblados más cortos pero menos contigs quiméricos.

Finalmente, los autores recomiendan usar multiensamblados cuando se busca diferenciar los genomas de cepas distintas de entre los genomas de alta abundancia. Este trabajo nos provee de herramientas para llevar a cabo ensamblados metagenómicos masivos para buscar genomas de organismos de baja abundancia.

Hofmeyr, S., Egan, R., Georganas, E. et al. Terabase-scale metagenome coassembly with MetaHipMer. Sci Rep10, 10689 (2020). https://doi.org/10.1038/s41598-020-67416-5