Modelos Jerárquicos Ocultos de Márkov para la detección de secuencias de resistencia a antibióticos.

Modelos Jerárquicos Ocultos de Márkov para la detección de secuencias de resistencia a antibióticos.

La resistencia a los antibióticos (AMR, por las siglas en inglés de Antimicrobial Resistance) continúa siendo un severo problema para los sistemas de salud. La AMR en bacterias ocurre por mutación o adquisición de genes que contrarrestan o disminuyen la concentración de los compuestos antimicrobianos dentro de las células bacterianas. La colección de estos genes tipo AMR en ambas cepas patógenas y no patógenas, es comúnmente llamada resistoma.  Para entender mejor la relación entre el uso de antibióticos y el resistoma, se han hecho estudios que determinan el efecto global del uso indiscriminado de éstos en la composición del resistoma, dichos estudios toman en cuenta:  la retención de genes AMR en suelo, la producción alimentaria, los hospitales y su mecanismo de acción y transmisión.  Recientemente, se ha empezado a usar metagenómica, para estudios del resistoma, esto ha permitido una mayor resolución en la caracterización del microbioma y del resistoma en un contexto ecológico.

Tradicionalmente, el análisis de datos de secuenciación implica el mapeo de las lecturas en bases de datos de genes AMR. Los alineadores de secuencias cortas, se han utilizado para mapear las lecturas, por ejemplo, AMRPlusPlus usa uno de estos alineadores para analizar las lecturas de los metagenomas con la base de datos MEGARes y así clasificar cada lectura. Sin embargo, son alineadores de lecturas cortas, es decir, solo son capaces de identificar genes a partir de lecturas que difieren en menos de 20 nucleótidos de la secuencia de referencia. Por esta razón, este tipo de programas deja fuera lecturas divergentes y por lo tanto existe un sesgo en este tipo de análisis. Además, la sensibilidad de los métodos basados en alineamiento decae cuando se analizan metagenomas de baja calidad.  En este contexto, los clasificadores de aprendizaje automático proveen una oportunidad para aumentar la sensibilidad de la clasificación sobre la alineación y por ello, se han utilizado para caracterizar el resistoma a partir de datos metagenómicos. Resfams es uno de ellos, utiliza Modelos Ocultos de Márkov (HMM, siglas en inglés de Hidden Markov Models) para clasificar secuencias de proteínas relacionadas con AMR a partir de datos metagenómicos. En este trabajo Lakin y colaboradores proponen el diseño y uso de Meta-MARC, un clasificador de aprendizaje automático jerárquico para catalogar ARMs en metagenomas. Meta-MARC no necesita ensamblar o traducir los datos del metagenoma, usa la base de datos de MEGARes para construir y entrenar a sus modelos produciendo un incremento sustancial de > 98% de sensibilidad y >99% de especificidad para sus predicciones.

Durante el desarrollo de este clasificador utilizaron el modelo de validación cruzada que consiste en seleccionar una secuencia al azar del conjunto de datos usados para entrenar el modelo, luego se elimina la secuencia y se vuelve a entrenar el modelo. Finalmente, esa secuencia se agrega al conjunto de prueba para ese modelo junto con todas las secuencias AMR reportadas. Después simularon lecturas y cada modelo se probó con los datos simulados. Se calculó la sensibilidad, especificidad y precisión para cada nivel de anotación (clase, grupo, mecanismo y modelo). La precisión se mantuvo arriba del 50% en todas las jerarquías examinadas. Lo que quiere decir que los perfiles de Meta-MARC son sensibles, específicos y precisos en el nivel de clase pero, a medida que el nivel de anotación se refina, la precisión de la clasificación decae (Tabla 1).


Tabla 1. All metrics excluding the AUC were calculated at the E-value threshold of 1e-25, which optimized the PR curve. We note that other thresholds might be useful depending on the false-positive tolerance of the use-case

Para evaluar el rendimiento de Meta-MARC se utilizaron dos conjuntos de datos metagenómicos, uno de suelo y uno pediátrico. Los conjuntos fueron creados a partir de la fragmentación del DNA metegenómico y con ellos prepararon una biblioteca de fósmidos en E. coli. Las colonias se crecieron en medio con diferentes antibióticos conocidos y se utilizaron concentraciones inhibitorias, así las colonias que crecen se consideran resistentes a un antibiótico conocido, obtuvieron la secuencia del fósmido y en teoría contendría los genes de resistencia.  Para probar el potencial de los modelos de Meta-MARC para identificar las AMR sobre los métodos existentes usaron el conjunto de datos de suelo y pediátrico. Primero usan las lecturas sin ensamblar (Meta-MARC HTS) y luego las lecturas ensambladas (Meta-MARC ensamblado), ambos modelos los contrastan con el alineado usando BWA y Resfams (HMM). Cabe señalar que se conoce la información de la susceptibilidad antimicrobiana fenotípica para las muestras metagenómicas. Observaron que para los datos de suelo y pediátrico, usando Meta-MARC ensamblado la tasa de clasificación fue más alta. Resfams y Meta-MARC ensamblado tuvieron un rendimiento comparable cuando se considera el número de clasificaciones objetivo. Dado que las muestras de suelo son divergentes, los clasificadores basados en alineamientos no dieron buenos resultados (Figura 1).


Figura 1. On-target classification rate of each method for each confirmed resistance class in the Pediatric and Soil datasets. Alignment and Meta-MARC HTS had improved performance on the Pediatric data than the Soil data, as evidenced by the higher quantiles of sample-wise classification rates shown here for the Pediatric data. Meta-MARC Assembly performed comparably to Resfams. Although alignment and Meta-MARC HTS classified fewer sequence reads overall, their on-target classification rates are comparable to Resfams and Meta-MARC Assembly on the Pediatric dataset

Después, analizaron el desempeño de Meta-MARC en datos metagenómicos estándar. Estos datos contienen una gran proporción de secuencias divergentes a los datos que se usaron para construir los HMM de Meta-MARC. Para determinar que tanta variación genética su método, las 87 muestras fueron analizadas utilizando los métodos de alineamiento BWA, Resfams, Meta-MARC HTS y Meta-MARC ensamblado. Cuando usan ambos Meta-MARCs sin ensamblar y ensamblado Identificaron más clases de genes resistentes de manera exitosa, así Meta-MARCs ensamblado detectó 11 de las 13 clases de genes de resistencia (Figura 2).

Figura 2. Comparison between the average number of variations between a read and consensus sequence (contig or reference). Counts of the non-major allele were determined for each genomic position by method and summed by AMR class category and sample. The median value for the methods utilizing assembly and alignment was ~7 variations per read on average. We note that the assembly methods also utilized alignment to map the DNA sequence reads back to the consensus contigs, which contributed to the reduction in allowed variation. The median value for Meta-MARC HTS was threefold higher than competing methods. Meta-MARC HTS was significantly different (***P < 0.001) compared to every other method via a Wilcoxon rank-sum test, corrected for multiple testing by the Bonferroni method. The Wilcoxon rank-sum test was performed using 1891 independent Class-level node and sample combinations per group tested

También, evalúan la cantidad de variación genética que cada método tolera en su clasificación, para ello, incrementan la divergencia de los genes que están en la base de datos de MEGARes, esto lo hacen remplazando una porción del gen con mutaciones, siguen ciertas reglas relacionadas con la longitud del gen. Una vez generados los genes divergentes, los añaden a genomas de E. coli y prueban los diferentes clasificadores. Encuentran que Meta-MARC ensamblado recupera el mayor número de secuencias, mientras que BWA y Resfams disminuyen su habilidad para recuperar secuencias con una alta tasa de mutación.  Finalmente comparan el tiempo de CPU y la memoria que ocupa Meta-MARC y determinan que el incremento en la sensibilidad y precisión de Meta-MARC viene acompañado por un costo, requiere mucha memoria (24 GB) en donde hay un mayor uso de memoria, por ejemplo, se requieren 24 GB memoria y de un mayor tiempo para procesar los datos.

Referencia.

Lakin, S.M., Kuhnle, A., Alipanahi, B. et al. Hierarchical Hidden Markov models enable accurate and diverse detection of antimicrobial resistance sequences. Commun Biol 2, 294 (2019).