En busca del análisis de abundancia diferencial más adecuado para microbiomas

En busca del análisis de abundancia diferencial más adecuado para microbiomas

El análsis de comunidades microbianas por secuenciación masiva ya sea por amplificación del gen de rRNA 16S o por secuenciación de metagenoma total implica muchas veces buscar genes o taxa con abundancia diferencial bajo ciertas condiciones. Estas comparaciones frecuentemente se hacen usando herramientas diseñadas para analizar datos de conteos como transcriptomas obtenidos por RNAseq. Recientemente se han publicado nuevos métodos de búsqueda de abundancia diferencial creados específicamente para comparar microbiomas. Estas nuevas herramientas toman en cuenta las características de los datos de microbioma como son sus matrices dispersas o implementan el análisis composicional. Sin embargo, hasta ahora no existe un análisis de comparación (benchmark) que valide la superioridad de estos nuevos métodos sobre el uso de análisis de conteos. Con esta problemática en mente, Matteo Calgaro y sus colegas decidieron usar un dataset curado manualmente de microbioma humano con 18 muestras de amplicones y 82 metagenomas totales para evaluar el desempeño de varias estrategias de análisis al llevar a cabo: pruebas de bondad de ajuste; control del error de tipo I; presentar concordancia; tener suficiente poder estadístico. Las muestras incluyeron varios sitios corporales (como la cavidad oral), superficies de muestreo (dorso de la lengua) y condiciones (salud o enfermedad). Los métodos comparados fueron songbird, mixMC, mgsZig, scde, ALDEx2, edgeR, MAST, seurat, DESeq2, corncob y limma.


a Mean-difference (MD) plot and root mean squared errors (RMSE) for HMP 16S Stool samples. b MD plot and RMSE for HMP WMS Stool samples. c Average rank heatmap for MD performances in HMP 16S datasets, HMP WMS datasets and all other WMS datasets. The value inside each tile refers to the average RMSE value on which ranks are computed. d Zero probability difference (ZPD; see the “Methods” section) plot and RMSE for HMP 16S Stool samples. e ZPD plot and RMSE for HMP WMS Stool samples. f Average rank heatmap for ZPD performances in HMP 16S datasets, HMP WMS datasets, and all other WMS datasets.

En la prueba de bondad de ajuste los autores encontraron que la distribución binomial negativa (la que usa DESeq2) y la distribución binomial negativa con exceso de ceros tuvieron un buen desempeño al modelar datos de amplicones de 16S y metagenomas totales. Además, vieron que las diferencias de profundidad de secuenciación no son suficientes para explicar por qué la binomial negativa con exceso de ceros modela mejor los datos de metagenoma total. Cuando revisaron el control del error de tipo I, encontraron que todos los métodos hicieron un buen trabajo excepto edgeR, metagenomeSeq y ALDEx2 para amplicones y metagenomas. Esto lo atribuyen a que las pruebas son demasiado laxas lo cual lleva a encontrar falsos positivos aunque las pruebas muy conservadoras también pueden generar falsos negativos. Posteriormente buscaron métodos con resultados consistentes y concordantes con otros métodos. De esta forma encontraron dos grupos para 16S, aquellos que normalizan conteos con base en el tamaño de la librería (normalización TMM) y los que no. Para el análisis de metagenomas se formaron tres grupos, de los cuales los métodos basados en la familia de modelos binomial negativa tuvieron el mejor desempeño.


38vs38 Supragingival vs. Subgingival Plaque 16S samples a Barplot of the enrichment tests performed on the DA taxa found by each method using an adjusted p value of 0.1 as threshold for significance (top 10% ranked taxa for songbird). Each bar represents the number of findings, UP in Supragingival or DOWN in Supragingival Plaque compared to Subgingival Plaque, regarding aerobic, anaerobic, and facultative anaerobic taxa metabolism. A Fisher exact test was performed to establish the enrichment significance represented with signif. codes. b Difference between putative true positives (TP) and putative false positives (FP) (y-axis) for several significance thresholds (x-axis). d Anaerobic metabolism taxa mutually found by 8 or more methods from the subset of the representative methods

Para comparar el poder de las estrategias analíticas para encontrar abundancias diferenciales los autores usaron muestras de la placa supragingival y subgingival, esperando encontrar un enriquecimiento de microbios anaerobios en la placa subgingival. así encontraron que ALDEx2 y MAST tuvieron poco poder para detectar enriquecimientos y metagenomeSeq y edgeR encontraron falsos negativos. Aún así, todos los métodos lograron identificar los taxa verdaderos positivos al hacer una clasificación de sus aciertos. Los autores señalan que aunque el método perfecto no existe, limma, corncob y DESeq2 mostraron el mejor desempeño en todas las comparaciones mientras que metagenomeSeq tuvo el peor. Matteo Calgaro y compañía concluyen diciendo que cada problema de análisis de microbioma debe ser evaluado con cuidado y tomando en cuenta las particularidades de los datos que se tienen. Esta investigación nos sirve de referencia para entender el estado del arte de la detección de abundancia diferencial en datos de microbioma.

Calgaro, M., Romualdi, C., Waldron, L. et al. Assessment of statistical methods from single cell, bulk RNA-seq, and metagenomics applied to microbiome data. Genome Biol21, 191 (2020). https://doi.org/10.1186/s13059-020-02104-1