Revelando patrones de diversidad alfa en comunidades microbianas con base en estimaciones de la cobertura de secuenciación de datos metagenómicos
La estimación de la proporción (cobertura) de la comunidad microbiana real que fue recuperada por métodos de secuenciación masiva es uno de los grandes problemas de los análisis metagenómicos, sobre todo cuando se quiere conocer la diversidad taxonómica presente en una muestra. Las mayores limitantes a la resolución de este problema es el contenido de secuencias que no se encuentran representadas en las bases de datos de anotación, la carga computacional que implica el análisis de muestras grandes y la falta de estrategias versátiles para cuantificar la diversidad. Además, los valores de cobertura de metagenomas obtenidos con diferentes tecnologías no son del todo comparables.
En este trabajo, se reporta Nonpareil 3, que es un algoritmo bioinformático diseñado para resolver varias de las limitaciones asociadas con la estimación de la cobertura asociada a datos de secuenciación metagenómica. Este algoritmo funciona sin necesidad de una base de datos de referencia y está basado en el cálculo del grado de redundancia de palabras de nucleótidos de tamaño k (k-meros) y la aplicación del principio de estimación Turing-Good, que consiste en buscar la probabilidad de aparición de especies no muestreadas. Dado que Nonpareil 3 calcula la cobertura con base en la fracción de DNA metagenómico muestreado, aunque la cobertura de una muestra sea > 50%, el número de especies no secuenciadas podría tener un valor más alto, particularmente en comunidades con alta equitatividad. En este trabajo también se reporta el desarrollo de Nd, que es un índice de diversidad de secuencias en unidades de logaritmo natural de pares de bases y expresa que tan redundantes son las secuencias del metagenoma. Se propone el uso de esta medida como índice de diversidad alfa en datos de secuenciación de comunidades de bacterias y arqueas, ya que en este tipo de datos las repeticiones genómicas y la variación del tamaño del genoma son mínimas.
Se utilizó esta métrica para comparar datos de secuenciación masiva de comunidades de distintos ambientes com el microbioma humano, agua de mar y suelo, y se comparó Nd con el índice de Shannon calculado a partir de amplicones del gen de rRNA 16S. Se encontró una alta correlación entre ambos índices, aunque a diferencia del índice de Shannon, Nd reflejó patrones temporales en muestras marinas y una mejor diferenciación de diversidad en varios ambientes.
Rodriguez-R, L. M., Gunturu, S., Tiedje, J. M., Cole, J. R., & Konstantinidis, K. T. (2018). Nonpareil 3: Fast Estimation of Metagenomic Coverage and Sequence Diversity. mSystems, 3(3), e00039-18.