Un software automatizado para recuperar genomas a partir de datos metagenómicos
El desarrollo de la secuenciación de DNA de alto rendimiento ha permitido recuperar genomas a partir de secuencias de muestras ambientales. Un paso clave en este proceso es clasificar las secuencias en unidades discretas, llamadas cajones (bin en inglés), para ello se utiliza la información de composición de tetranucleótidos y la cobertura de las secuencias metagenómicas. Para tener certeza de que cada cajón corresponde a un genoma, se revisa su completitud y disparidad. En este trabajo se describe MaxBin, un programa que automatiza el encajonamiento (binning en inglés) de secuencias metagenómicas utilizando un algoritmo esperanza-maximización (EM). MaxBin funciona combinando las frecuencias de tetranucleótidos y cobertura de secuencias ensambladas y con esta información organiza las secuencias en cajones que son validados con genes marcadores de copia única.
Generalmente los algoritmos esperanza-maximización comienzan con parámetros aleatorios, sin embargo este programa le ayuda al algoritmo EM al estimar el número de cajones con base en 107 genes marcadores de copia única. Para validar su estrategia, Wu y compañía simularon datos metagenómicos con comunidades de 10 genomas, con cobertura 20X u 80X, y de 100 genomas, con baja, media y alta cobertura. Para la comunidad pequeña con cobertura de 80X se recuperaron 10 cajones en los cuales se reconstruyeron las secuencias genómicas casi en su totalidad sin importar la abundancia, mientras que en los datos con cobertura de 20X, solo las tres secuencias genómicas que se encontraban en alta abundancia se lograron reconstruir. Para los datos simulados a partir de 100 genomas, solo los genomas más abundantes se pudieron recuperar con una precisión del 75 y 65 por ciento para los datos de baja y cobertura media, respectivamente. Los datos de cobertura media, que presentaban una alta equitatividad en cuanto abundancia de genomas se armaron 78 cajones, el número más alto de los 3.
MaxBin se usó para recuperar genomas de 3 muestras del proyecto del microbioma humano provenientes del costado de la lengua, placa subgingival y heces, las cuales tuvieron esfuerzos de secuenciación muy contrastantes (12 Gb, 1.4 Gb y 6.4 Gb, respectivamente). En general, fue posible encajonar genomas de las especies más abundantes en todas las muestras. Los autores compararon su programa con una estrategia de mapas auto-organizativos emergentes (MAOE) y encontraron que MaxBin tuvo un mejor desempeño al diferenciar entre genomas de organismos parecidos. Posteriormente, se analizaron metagenomas de dos réplicas de comunidades celulolíticas enriquecidas de inóculos de composta, 37A y 37B. Aunque las comunidades hayan sido obtenidas a partir del mismo inóculo, la composición y abundancia relativa de especies presentes en las dos muestras fueron diferentes. De nuevo utilizaron MaxBin, MAOE e información de cobertura diferencial para crear cajones con los datos de ambas réplicas. Para las tres aproximaciones, fue posible recuperar el genoma de un organismo del género Sorangium.
El genoma de este organismo se comparó con otras mixobacterias y se encontró que es muy similar a otros dos genomas de proteobactrerias del suborden Sorangiineae de organismos no cultivables. Los tres genomas se compararon y se encontró que el genoma recuperado por los autores, a pesar de ser 2.5 veces más pequeño que los demás, tiene un gran repertorio de genes relacionados con el catabolismo de oligosacáridos y genes que codifican para hemicelulasas identificados en la base de datos CAZy. Este software representa una herramienta conveniente para recuperar genomas de datos metagenómicos para los cuales existe un número limitado de muestras, ya que para los casos de contar con varias muestras similares, programas como MaxBin2 o MetaBAT podrían resultar más eficientes.
Wu, Yu-Wei, et al. «MaxBin: an automated binning method to recover individual genomes from metagenomes using an expectation-maximization algorithm.» Microbiome 2.1 (2014): 26.