Evaluación de la secuenciación del gen 16S rRNA para análisis de microbiomas a nivel de cepas y especies

Evaluación de la secuenciación del gen 16S rRNA para análisis de microbiomas a nivel de cepas y especies

Con la secuenciación en masa de amplicones de 16S la norma ha sido generar clusters basados en similaridad para generar las unidades taxonómicas de operación. Con los avances de la secuenciación se han aumentado el largo de los fragmentos con los se analizan las comunidades bacterianas. Una de las más recientes es la secuenciación de fragmentos completos de 16S donde se podrá apreciar y hacer más fina la asignación taxonómica de las bacterias. El uso de las regiones hipervariables del gen 16S ribosomal aunque útil no está exento de algunos problemas o deficiencias que pueden o no mejorarse con la secuenciación de fragmentos más grandes del mismo.

Los nuevos métodos de secuenciación circular mencionan que tienen la capacidad para obtener la secuencia completa de 16S y discriminar entre secuencias con 1 solo nucleótido de diferencia. Los autores de este trabajo utilizan este sistema para comparar la asignación taxonómica con respecto a otras técnicas como la secuenciación completa del genoma de algunas bacterias ya caracterizadas tanto a nivel in vitro e in silico.

la primera parte fue el análisis de secuencias de 16S no redundantes >1% de diferencia y que fueron cortadas según los fragmentos generados por los amplicones más comúnmente utilizados para este tipo de análisis y se comparó la asignación taxonómica generada con diferentes fragmentos y la que se obtiene con la secuencia completa.

Se encontró que la mayor cantidad de secuencias asignadas correctamente  fue al utilizar los fragmentos completos pero que las subregiones representaron de manera eficiente la asignación taxonómica en algunas lo suficiente para la asignación de especie. También se vio que la asignación y eficiencia difiere dependiendo del fragmento utilizado. la región V6-v9 resultó ser eficiente para la asignación de Clostridium y Staphylococcus, la V3-V5 para Klebsiella y V1-V3 para Escherichia/Shigella. La que peor rendimiento tuvo fue la región V4.

In-silico comparison of 16S rRNA variable regions. a Shannon entropy across the 16S gene based on the alignment of a single representative sequence for each known species present in the Greengenes database. Sequences were aligned against a single reference 16S gene for Escherichia coli K-12 MG1655 (NCBI Gene ID 947777). Gray panels depict variable regions defined by commonly used primer-binding sites. Variable regions considered in this study are shown as red lines (bottom). b Proportion of sequences for each variable region that could not be identified to species level when classifying each sequence against the reference database from which it was derived at a confidence threshold of 80% (RDP classifier). c Trees based on taxonomy of sequences present in the in-silico database. The same tree is provided for each variable region. The color of each branch reflects the proportion of sequences within each clade that could not be identified to species level. d The number of OTUs created when clustering sequences for each variable region at 99% sequence similarity. Dashed line indicates the number of unique sequences (>1% different) in the original database.

Para comparar si la eficiencia calculada anteriormente se reflejaba secuenciaron de manera completa fragmentos de 16S de diferentes cepas de E.coli por medio de PacBio y Illumina Hiseq y compararon para ver si la tasa de errores era debido a la secuenciación o era un reflejo de los poliformismos de las diferentes cepas. Al ver que con secuencias largas pueden identificar polimorfismos del mismo genoma demuestra que no es válido asumir que secuencias que varían en uno o pocos nucleótidos representan diferentes taxas.

Para verificar la eficiencia de la secuenciación completa calcularon la abundancia de Bacteroides a nivel de género y a nivel completo por mWGS como V1-V3 Illumina y V1-V9 PacBio la secuenciación produjo resultados comparables. Ambos acercamientos identificaron a los individuos con baja proporción de Bacteroidetes de los dos con alta.

Detecting Bacteroides in human stool samples. a The relative abundance of the genus Bacteroides in four human stool samples quantified using either V1–V9 amplicons (x-axis) or V1–V3 amplicons (y-axis). b The relative abundance of Bacteroides species in the same four samples. Species abundance was quantified from mWGS sequencing or from V1–V3/V1–V9 OTUs generated at 99% identity. Abundance is shown for the most abundant species as quantified by mWGS . c Nucleotide substitution profiles generated by aligning all V1–V9 amplicon sequences assigned to the single OTU identified as Bacteroides vulgatus. Profiles are shown for the two stool samples with high B. vulgatus relative abundance (IronHorse and Scott). d Nucleotide substitution profiles predicted from the reference genomes of two different B. vulgatus strains ATCC 8482 39 and mpk. In both c and d, nucleotide substitutions were identified relative to a single reference 16S gene for B. vulgatus ATCC 8482 (NCBI Gene ID 5304800). Gray panels depict variable regions defined by commonly used primer binding sites. Dashed lines indicate the expected proportion of nucleotide substitutions, given there are seven 16S gene copies within each genome.

Ya que es posible resolver entre variantes intra genómicas que aparecen en el mismo taxa, establecieron que perfiles pueden ser utilizados de manera rutinaria para distinguir entre cepas de la misma especie. Ellos cultivaron 381 taxas del microbioma de personas sanas y generaron de ellas secuenciaciones completas del 16S para identificar sustituciones nucleotídicas características de copias intragénicas de 16S. De estas se identificaron 58 especies, mientras que a 99% de similitud se agrupan 61 OTUs (con entre 61 y 73 aislamientos a cada OTU). En total 349 de 381 aislados (54 de 61 OTU). Esto indica la presencia de polimorfismos y se identificaron 205 perfiles de SNP únicos al tener en cuenta un posible error de secuenciación

Intragenomic 16S gene polymorphisms in human gut microbiome isolates. a Location of SNPs present in the 16S genes of individually cultured bacterial isolates. SNP locations were identified through phasing full-length 16S gene sequences generated for each individual isolate. X-axis denotes position along the 16S gene. Y-axis denotes individual isolates clustered based on their inferred phylogeny. Dark blue region indicates the location of a polymorphism. For clarity, a maximum of five isolates belonging to the same species are shown. For details of nucleotide substitution profiles for all sequenced isolates. b–d Examples of nucleotide substitution profiles showing strain-level differences between isolates identified as belonging to three bacterial species: b Shigella flexneri; c Bifidobacterium longum; d Collinsella aerofaciens. For each species, two isolate nucleotide substitution profiles are shown; however. Isolates were identified as belonging to the same species if their representative sequences were assigned to the same OTU when clustering at 99% sequence identity. Taxonomic identification was performed using BLAST to align representative sequences to the NCBI 16S BLAST database. Gray panels depict variable regions defined by commonly used primer-binding sites. Dashed lines indicate the expected proportion of nucleotide substitutions, given the number of 16S gene copies predicted for each genome

Johnson, J.S., Spakowicz, D.J., Hong, B. et al. Evaluation of 16S rRNA gene sequencing for species and strain-level microbiome analysis. Nat Commun10, 5029 (2019). https://doi.org/10.1038/s41467-019-13036-1