27 de febrero: Reference databases for taxonomic assignment in metagenomics.
Santamaria, M., Fosso, B., Consiglio, A., De Caro, G., Grillo, G., Licciulli, F., Liuni, S., et al. (2012). Reference databases for taxonomic assignment in metagenomics. Briefings in bioinformatics, 13(6), 682–695. doi:10.1093/bib/bbs036
Metagenomics is providing an unprecedented access to the environmental microbial diversity. The amplicon-based metagenomics approach involves the PCR-targeted sequencing of a genetic locus fitting different features. Namely, it must be ubiquitous in the taxonomic range of interest, variable enough to discriminate between different species but flanked by highly conserved sequences, and of suitable size to be sequenced through next-generation platforms. The internal transcribed spacers 1 and 2 (ITS1 and ITS2) of the ribosomal DNA operon and one or more hyper-variable regions of 16S ribosomal RNA gene are typically used to identify fungal and bacterial species, respectively. In this context, reliable reference databases and taxonomies are crucial to assign amplicon sequence reads to the correct phylogenetic ranks. Several resources provide consistent phylogenetic classification of publicly available 16S ribosomal DNA sequences, whereas the state of ribosomal internal transcribed spacers reference databases is notably less advanced. In this review, we aim to give an overview of existing reference resources for both types of markers, highlighting strengths and possible shortcomings of their use for metagenomics purposes. Moreover, we present a new database, ITSoneDB, of well annotated and phylogenetically classified ITS1 sequences to be used as a reference collection in metagenomic studies of environmental fungal communities. ITSoneDB is available for download and browsing at http://itsonedb.ba.itb.cnr.it/.
13 comentarios
Los autores resaltan la importancia de las bases de datos de referencia para asignaciones taxonómicas, las cuales son esenciales para determinar la filiación filogenética de los reads obtenidos en estudios metagenomicos basados en amplicones. Para logra esto, primero los reads obtenidos de la secuenciación, con plataformas de NGS, se alinean a bases de datos de referencia o a secuencias cuyo especie/taxon sea conocido. En ausencia de una base de datos de referencia, o en la presencia de secuencias ambientales de organismos desconocidos, no se puede realizar una asignación taxonómica, por lo que las secuencias se agrupan en clusters de especies relacionadas, generalmente llamado unidades operativas taxonómicas OTUS. De esta forma se completa la asignación taxonómica, para esto se han obtenido varias bases de datos de referencia especializados para secuencias de 16S rDNA, sin embargo no se han generado bases de datos que tomen como referencia las regiones hipervariables del gen como os espaciadores transcritos internos 1 y 2, que sirven para identificar especies bacterianas y de hongos. Siendo que la asignación bioinformática de especies de hongos se ha realizado por comparación directa de secuencias desconocidas con las incluidas en las bases de datos INSDC (International Nucleotide SequenceDatabase Collaboration). Debido a la falta de bases de datos de referencia que permitan hacer clasificaciones taxonómicas de hongos, en este trabajo se enfocaron en desarrollar una base de datos de referencia para análisis metagenómicos de comunidades de hongos que permitan entender su composición taxonómica. De esta forma crearon ITSoneDB, la cual es una colección completa del RNA ribosomal (ITS1) en donde las secuencias se obtienen del Genbank (GB) y se disponen en un árbol taxonómico del NCBI. Los limites de ITSoneDB, se definen por las anotaciones del GB,o diseñado mediante el mapeo de los perfiles de modelos ocultos de Markov (HMM) que flanquean los genes codificantes de RNA ribosomal en cada secuencia.
Ya se ha podido apreciar con anterioridad el usi extendido del gen 16S rRNA para hacer inferencias filogenéticas y taxonómicas, desde el uso de la secuencia completa o solamente de regiones hipervariables, obteniendo buenos resultados con ambas aproximaciones. Sin embargo, la información disponible en bases de datos tienden a focalizarse hacia las bacterias o archeas teniendo menor información sobre hongos. En este caso particular, el uso de las secuencias ITS han proporcionado buena discriminación a nivel de especie pues se considera que tienen suficiente variación para ello, además de que las secuencias que los flanquean (5.8S y 18S rRNA) son conservadas.
Así, el artículo presenta diferentes bases de datos para el análisis del 16S como herramienta para acceder a la asignación taxonómica (p. ej., RDP, Greengenes, SILVA, etc.) sin profundizar exhaustivamente pero proporcionando sus fundamentos básicos y características, ventajas y desventajas, la dirección web, número de secuencias disponibles, etc. Igualmente, introduce bases de datos para el uso de ITS resaltando la falta de un buen desarrollo de estos (particularmente para ITS1). Para así introducir la plataforma que este grupo ha desarrollado, centrándose en secuencias IST1 pues consideran que el éxito del análisis y la asignación taxonómica depende en gran medida de la calidad y cantidad de información de referencia disponible (finalmente, es un análisis comparativo entre secuencias).
Esta base de datos (ITSoneDB)busca ser una referencia homogenea para el análisis de metagenomas basándose tanto en la notación del GeneBank así como de HMM para tener mejor calidad de las secuencias indexadas y mantener coherencia con estas bases de datos que son de uso muy difundido. Además, esta base de datos detecta neuvas entradas en el GeneBank por lo que se mantiene actualizada. La búsqueda puede realizarse por nombre de especie, taxón o accession number o GI, así como por árbol filogenético o una búsqueda avanzada usando códigos booleanos y la información obtenida puede descargarse en formato FASTA.
Igualmente, realizaron una especie de validación para corroborar funcionamiento respecto a la base de datos UNITE, para medir rendimiento, obteniendo un mayor número de matches significativos para los reads que trabajaron en esta nueva plataforma.
Este artículo es interesante ya que muestra la importancia de las bases de datos sobre taxonomía que usan los marcadores moleculares más comunes, en particular se enfocan en los ITS (espaciadores transcritos del operon ribosomal) para el caso de eucariontes. A los autores le interesa principalmente tener una base de datos que les ayude a la taxonomía de hongos. Presenta un pequeña revisión del marcador 16S utilizado en bacterias y el gran impacto que ha tenido en los estudios metagenómicos para poder conocer sobre la diversidad de un ambiente, sin embargo para eucariontes no existe una base de datos tan completa y curada por lo que ellos presentan una base de datos de ITS1 que busca sea igual de útil como la del 16S. Lo que me gustó es que nuevamente nos dan opciones de bases de datos, servidores y programas (algoritmos) enfocados a la asignación taxonómica, y comparan algunos aspectos como el número de secuencias que tienen y las características más importantes (con las respectivas referencias) que podemos utilizar para nuestros estudios de metagenomas.
La metagenómica ha abierto la puerta al estudio de una diversidad microbiana conocida pero que no podía ser evaluada por la restricción de ser cultivable o no. Antes del surgimiento de tecnologías de secuenciación masiva de gran rendimiento el paso limitante en la obtención de información estaba aquí, ahora el cuello de botella se ha centrado en el manejo de la información: el almacenamiento, ensamblado, anotación e interpretación de los datos que arroja la secuenciación masiva.
La metagenómica basada en amplicones involucra la secuenciación mediante PCR de un locus específico que sea ubicuo entre los organismos de interés pero que sea lo suficientemente variable para que permita discriminar entre dos especies diferentes. El gen por excelencia que más se ha usado para éste fin es el RNA ribosomal 16S y ha permitido identificar especies de hongos y bacterias. Dado que el análisis de la información tiene una base bionformática, la existencia de bases de datos que puedan usarse como referencia es crucial para construir una filogenia.
Esta revisión tiene el objetivo de abordar las diferentes fuentes de referencia para el RNAr 16S así como para los espaciadores internos ribosomales mostrando sus principales fortalezas así como las debilidades o fallas en su uso en metagenómica. Creo que este artículo constituye un buen principio para dar una “vista de águila” a las bases de datos que se tienen acerca del 16S, lo que puede tomarse como un punto de partida cuando se haga un análisis de este tipo.
Los autores proponen un servidor basado en estudios de metagenómica del ITS1, que es el espaciador interno 1 del transcrito del RNAr, esta secuencia es altamente variable por lo que es de gran utilidad en la identifición de organismos y en la asignación taxonómica. El servidor, denominado ITSoneDB conjunta un gran número de secuencias de ITS1 del reino Fungi; el servidor trabaja a modo de una línea de producción con lo que se puede mantener actualizado. Dada la importancia de estas secuencias la implementación del servidor ITSoneDB podría contribuir al desarrollo de bases de datos más homogéneas para el análisi metagenómico, al menos del reino Fungi.
Una parte muy importante para la interpretación de los datos obtenidos de un análisis de metagenómica es la asignación de la identidad de las secuencias, ya sea desde un punto de vista taxonómico o funcional. En el primero de los casos, los genes ribosomales han sido utilizados con la fuente de información para la clasificación de los microorganismos. A pesar de las aportaciones que se han generado por su aplicación en la taxonomía, muchas críticas se han realizado por los diferentes puntos en contra (estar presente en varias copias y ser suceptibles a eventos de transferencia horizontal, principalmente). Sin embargo, en la metagenómica sigue siendo un punto de referencia para entender la composición de la diversidad microbina.
Análisis a detalle han identificado que diversas regiones a lo largo de los genes ribosomales se encuentran muy conservadas y que es posible utilizarlas como un punto de referencia para hacer asignaciones taxonómicas; generando resultados similares y/o, en algunos casos, más especifícos que el análisis del gen completo. Uno de sus puntos en contra es que el uso de estas regiones podrían influir en los datos relacionados con la diversidad genética, y en la riqueza y diversidad filogenética. Metodológicamente, ha mostrado dificultades en su aplicación general, por lo cual se ha sugerido modificar la condiciones de amplificación haciendo más laxo el proceso y que pueda abarcar la mayoría de los microorganismos que están presentes en el momento del muestreo.
Una nueva propuesta para la identificación de los microorganismos en este tipo de análisis es usar los espacios intergénicos de los genes ribosomales (ITS, por sus siglas en inglés). Estas regiones se encuentran en varias copias, por lo que pueden amplificarse fácilmente y tienen un alto grado de conservación. Sin embargo, la variación en su longitud puede complicar su utilidad. Así también, su utilidad estaría ligada a la disponibilidad de secuencias homólogas para su comparación. Para poder sobrellevar estas limitantes, se ha tratado de hacer programas y bases de datos específicas que puedan intercambiar con las bases de datos existentes. Pero al igual que con las secuencias del gen ARNr 16S existen dificultades en la asignación de la identidad por la cantidad y calidad de las secuencias, y por no haber un consenso para su amplificación y análisis.
Uno de los mayores esfuerzos para utilizar esta región es la creación de bases de datos específicas, como la ITS2 Database III, la cual utiliza la base de datos del GenBank y el modelo de Markov-Hidden como críterio para la selección de las secuencias similares. Por otro lado, la propuesta de este artículo es una base de datos denominada ITSoneDB que se enfoca en la región ITS1 para su aplicación en la identificación de comunidades de hongos. Está región es considerada porque evoluciona más rápido que la región ITS2. El proceso para su uso sigue los mismos pasos que se han utilizado en los análisis comunes de metagenomas. Por otro lado, utiliza el modelo de MH para asignar valores de confiabilidad en los análisis comparativos. Por lo que, esta base de datos ofrece una nueva alternativa en los análisis de metagenómica y esta buscando alternativas para la interconexión con otras bases de datos y poder integrar la información referente a las condiciones ambientales del sitio de muestreo con la clasificación taxonómica. Sin embargo, aún hace falta mucho trabajo por realizar pero es una realidad que grandes esfuerzos se están realizando para poder explotar al máximo esta nueva alternativa en el estudio de la diversidad microbiana.
Es importante tener bases de datos confiables para generar taxonomía confiable.
La NGS es una ventaja para la metagenomica. Abarca la extracción directa del material y la secuenciación simultanea de los microorganismos presentes en la muestra. Inicialmente la metagenómica estaba enfocada a la comunidad bacteriana. La regiones para ser secuenciadas son las hiper-variables de la fracción 16S ribosomal. Como resultado de estas amplificaciones, los amplicones (moléculas de ADN idénticas, resultado del PCR) que generalmente son sometidos a la secuenciación por plataformas NGS.
Esta tecnología también está disponible para comunidades de hongos. En este caso, los loci más empleados para discriminar entre especies son los espaciadores internos transcripcionales o “Internal transcribed spacers”. Existen dos tipos conocidos, ITS1 e ITS2. Aunque existen algunos intentos de discriminación con subunidades de RNAr. Ambos marcadores, ITS y RNAr han sido usados para estudios filogenéticos. Los patrones de variabilidad de los ITSs han sido particularmente útiles para los estudios metagenómicos.
Una vez obtenidas las librerías de amplicones, usando cualquier marcador antes mencionado, el siguiente paso es secuenciarlos en una plataforma NGS. Entre los problemas que existen en este paso se encuentran la longitud variable de los ITSs , donde plataformas como 454 de Roche se ven superados por ello. MEGAN y TANGO, herramientas para la caracterización de metagenomas, requieren un paso preliminar, en el cual, cada secuencia tomada del ambiente es comparada taxonómicamente contra una referencia de la base de datos (por ejemplo RDPClassifier, basada en una clasificación bayesiana o MOTHUR basado en la técnica del vecino más cercano (para encontrar k-mers). Una vez contempladas las secuencias es necesario desarrollar una base de datos capaz de controlar la calidad de los datos, la reducción de las redundancias y validar la precisión y efectividad de la asignación de taxones.
Entre los recursos más desatacados en base al uso de la fracción 16S, se encuentran el proyecto “Ribosomal Databas Projet” RDP. Contiene secuencias de bacterias y archeas pertenecientes a la región 16S y permite clasificar filogenéticamente a organismos procariontes a través de secuencias dentro del INSDC. Este detecta quimeras y errores en el armado de la secuencia usando modelos de intra-genes del 16S. Otro recurso es “Greengenes” que permite la clasificación de secuencias de 16S pertenecientes al GenBank y se auxilia de UCHIME y ChimeraSlayer para la detección de quimeras. Por otro lado, SILVA permite la clasificación de pequeños y largos subunidades de RNAr de bacterias, archeas y eucariontes dentro del Europea Nucleotide Archive. Este software permite el uso tipos de alineaciones para 16S: SSU Parc y SSU Ref. Otro servidor, EzTaxon-e permite la clasificación filogenética para secuencias 16S pertenecientes al GenBank. A diferencia de los recursos anteriores, esta también incluye secuencias de muestras ambientales. Cuenta mayoritariamente con secuencias tipo 16S para bacterias y unas cuantas para archeas, sin embargo no detecta por sí solo las quimeras y errores. SILVA y Greengenes cuentan con ARB, el cual permite construcción de árboles, alineamientos de secuencias, edición de estructuras secundarias y primarias, análisis filogenéticos.
Los recursos para secuencias ITS nos son tan amplios, en especial para ITS1. Varias especies de hongos han sido desarrolladas a partir de la comparación de secuencias contra la base de datos de INSDC. La secuencias, estructura y taxonomía de todos los ITS2s del Genbank constituyen el núcleo de la ITS2 Database III, de la cual, su principal objetivo es integrar las secuencias y estructuras en estudios de evolución. Además esta refinada por HMM (Hidden Markov Model) . Dentro de ello, estructuras secundarias tienen una predicción para todas las secuencias tipo ITS2. El “UNITED Project” es una base de datos de alta calidad para las ITSs de las micorrizas del Norte de Europa, su alta calidad se basa en la notas (voucher) obtenidas de cuerpos fructíferos por parte de expertos depositados en herbarios. Aunque acepta secuancias de cualquier origen geográfico o taxón de hongo, debe de soportarse por el vouche de autor quién debe de ser experto en el taxón. UNITED permite el enriquecimiento de sus notas a traes de metadatos y especies adicionales que resulten del desarrollo de análisis con éstos datos. Dos bases de datos que permiten análisis filogenéticos son galaxieBLAST y galaxie HMM. Finalmente UNITE colabora con el “Fungal Enviroment Sampling and Informatics Network”.
El punto clave de este artículo es la descripvión de ITSone DB. Ultimamente ha ganado popularidad, pues s materia prima la región ITS1 tiene un ritmo de evolución más rápido que ITS2 además de ser un mejor marcador para discriminar entre especies. Para el diseño de esta base de datos, la secuencia candidata debe de ser incluida en su base de datos. Dentro de la base de datos existe un diccionario de términos y sinónimos usados en el Genbank, de esta manera se identifica a la región ITS1. De la región ITS1 se extraen las posiciones finales e iniciales anotadas en el GenBank. El siguiente paso es validar y rediseñar las bandas del ITS1 a través del mapeo HMM del flanqueo de genes 18S y 5.8S RNAr de cada secuencia. Posteriormente se selecciona a los alineamientos mas significativos. Hasta el 2012 se tenían registradas 405 433 entradas de inicios y finales de ITS1s. Esto contribuye a una base de datos con referencias más homogéneas para análisis metagenómicos. Aunque sí, aun es necesaria el robustecimiento de del soporte de la caracterización taxonómica.
La mayor parte de los estudios metagenomicos se han hecho con bacterias, lo cual esta ampliamente justificado pues participan en casi todos los procesos representados en la tierra. También es cierto que no se puede entender el hábitat microbiano hasta que todos sus componentes se conozcan y entonces se pueda interpretar como interactúan.
Una forma de saber quienes están presentes en un ambiente es secuenciando de manera dirigida algún primer conservado. En bacterias y arqueas el más utilizado es el gen 16S, este gen cuenta con nueve regiones hiper-variables con las que se pueden hacer inferencias filogenéticas.
Sin embargo uno quizá quiera acceder a otros miembros de la microbiota como los hongos. Para esto se utilizan otras regiones que se llaman ITS y se refiere a las regiones espaciadoras que cuentan con la ventaja de estar flanqueadas por regiones conservadas lo que permite construir primers para poder amplificar esa región.
Sin embargo para que esta aproximación tenga éxito se depende de las bases de datos, si en las bases de datos no hay nada parecido entonces solo se lograran formar clusters pero sin asignación taxonómica. RDP, SILVA y GreenGenes son bases de datos utilizadas para bacterias con el gen 16S. Este no es el caso para los hongos pues existen mucho menos datos y muchas anotaciones no están curadas, sin embargo existen algunas bases de datos como UNITE que cuenta con secuencias con clasificación de herbario.
Control de lectura 21
Reference databases for taxonomic assignment in metagenomics Santamaria, M., Fosso, B., Consiglio, A., De Caro, G., Grillo, G., Licciulli, F., Liuni, S., et al. (2012). Reference databases for taxonomic assignment in metagenomics. Briefings in bioinformatics, 13(6), 682–695. doi:10.1093/bib/bbs036
En este review se aborda la existencia de diversas bases de datos para la asignación de rango traxonómico de aislados y secuencias de muestras ambientales. Si bien el empleo de secuencias de 16S rRNA es de gran ayuda para dar taxonomía rápida, hay otros enfoques que utilizan Internal Transcribed spacers (ITS) que están dando buenos resultados en la clasificación de organismos bacterianos, arqueas y eucariontes como los hongos. Se hace una revisión de las diferentes bases de datos existentes y paqueterías como SILVA y Greengenes, Mothur, ARB, NCBI etc., y la manera en la que bases y paquetes bioinformáticos se interconectan para poder construir clasificaciones y asignar la taxonomía a nuestros aislados o secuencias de interés. También se habla de los beneficios con los que cuentan cada una de estas herramientas y que tan nutridas están las bases de datos. Las hay hoy en día tanto de 16S como de ITS.
Las bases de datos de referencia y las clasificaciones taxonómicas son indispensables para determinar las relaciones filogenéticas de las secuencias que se obtienen en ensayos metagenómicos basados en amplicones. Una sola lectura puede ser igualmente parecida a varias secuencias de referencia y entonces se puede alinear esa secuencia con una secuencia consenso, como el ancestro común a todos los candidatos, en una taxonomía de referencia. La fuente principal de secuencias anotadas de nucleótidos es INSDC.
Información del 16S
La RDP (Ribosomal Database Project) tiene la clasificación filogenética de todos los organismos procariontes registrados en INSDC, tanto bacterias como arqueas. GreenGenes tiene la clasificación filogenética de las secuencias de 16S del GenBank y es compatible con el software ARB. SILVA tiene información filogenética para las dos subunidades ribosomales da bacterias, arqueas y eucariontes y también se puede usar con el software ARB.
Información de ITS
Aún no existe ni la cantidad ni la organización de información para hongos como las hay para bacterias y las ITSs que existen suelen estar incompletas y mal anotadas. El proyecto llamado UNITE tiene ITS de alta calidad específicamente de hongos europeos y las anotaciones son modificables por los ususarios, ya que pueden añadir metadata e identificar nuevas especies. El servicio Emerencia tiene como objetivo mejorar la caracterización de secuencias ITS mal descritas guardadas en GenBank. ITSoneDB es una colección de secuencias ITS1 de hongos disponibles para ser descargadas. Estas secuencias también se pueden exportar para crear conjuntos de datos que sirvan como referencia para estudios metagenómicos particulares.
En este artículo se cumplen dos objetivos principales, uno es el hacer una revisión sobre las herramientas existentes, enfocándose en bases de datos, que se encuentran disponibles actualmente y que nos pueden ayudar en la clasificación taxonómica de organismos presentes en estudios metagenomicos. El segundo punto es el de dar a conocer una nueva base de datos, ITSoneDB.
Después de una breve introducción sobre el uso de la metagenómica y las tecnologías de secuenciación de nueva generación, se discute el uso de las secuencias de rRNA como un mecanismo eficaz de clasificación taxonómica, en particular el 16S rRNA en bacterias. Por diversos estudios se sabe que el 16S rRNA a pesar de ser un gen altamente conservado, presenta diversas regiones hipervariables las cuales, en algunos casos, pueden generar una reconstrucción filogenética similar a la obtenida si se empleara el gen en su totalidad.
Si bien existe una gran disponibilidad de información en lo referente a esta secuencia, esta aproximación solo es útil para bacterias y arqueas. Con la llegada de la metagenómica el análisis de esta secuencia ha permitido una amplia identificación de secuencias bacterianas pero como discuten los autores aquellos organismos eucariontes se han visto en cierta medida marginados.
El papel principal de los hongos en la naturaleza es el de reciclar los nutrientes y descomponedores por lo que se encuentran distribuidos en una gran cantidad de ambientes. Al igual que en las bacterias, se sabe que los hongos presentan dos espaciadores internos (ITS1 e ITS2) en el operón ribosomal del DNA que son útiles para discriminar entre distintas especies. Si bien existen algunas bases de datos enfocadas en estas secuencias y a la caracterización de comunidades de hongos tales como UNITE o AFTOL, éstas aun no tienen todo el soporte y disponibilidad de datos como las existentes para bacterias, por lo cual aquí los autores presentan su base de datos ITSoneDB.
Esta nueva base de datos está enfocada en el análisis de las secuencias ITS1 principalmente por que evoluciona más rápidamente que la ITS2 y presenta una mayor definición al discriminar entre especies. Para realizar sus búsquedas la base de datos se basa en un set de datos del GenBank sobre el cual se extraen las posiciones de las secuencias para posteriormente ser validadas por perfiles de HMM.
Con el rápido avance que se está dando en las técnicas de secuenciación creo que el proponer la creación de una mayor cantidad de bases de datos y que éstas no estén enfocadas a uno o dos dominios particulares (Archea y Bacteria) es un paso importante pues es de esperarse que cada día sea mayor el número de trabajos a nivel metagenómico enfocados a organismos eucariontes, por lo cual la existencia de este tipo de recursos pasará a ser algo esencial.
En este artículo nos mencionan la forma en que se utilizan los marcadores específicos para clasificar y dar categorías taxonómicas a los organismos, siendo como ya hemos venido hablando el rRNA 16S uno de los principales marcadores, en el artículo destacan el uso de de los espaciadores transcritos internos como regiones que pueden ayudarnos para clasificar bacterias y hongos, esto como un elemento novedoso, asimismo, nos detallan las bases de datos en donde se encuentran dichos archivos así como la disponibilidad que tenemos para descargalos.
En las figuras del artículo, se hacen diversos análisis de los ITS para demostrar su confiabilidad para la clasificación de los organismos.
Reference databases for taxonomic assignment in metagenomics
En este artículo compara las diferentes de las herramientas disponibles para el estudio de procariontes, y eucariontes (microhongos). Siento que es una forma de quejarse, de que los estudios metagenomicos están enfocados principalmente para el estudio de comunidades bacterianas. Y que a pesar de los problemas que han tenido con el marcador molecular 16S en cuanto a la longitud de los reads, el esfuerzo y la rápida transformación de la tecnología de secuenciación ha permitido hacer frente a estas limitaciones. Por otro lado, concerniente al estudio de comunidades de hongos, no ha sido un campo que realmente haya avanzado, si bien la metagenomica abrió camino para el estudio de comunidades, la existencia de las bases de datos se encuentra muy limitada para estos organismos. Los marcadores utilizados para los eucariontes son ITS1 e ITS2 (Internal Transcription, Spacers) debido a su alto grado de conservación y la fácil amplificación por una baja cantidad de muestras. Hay una clasificación nucleo de ITS 2 en Genebank siendo una base de datos muy concurrida, asocia secuencias integradas/estudios de estructuras evolutivas permitiendo hacer análisis filogenéticos. UNITE es otro proyecto que mantiene una base de datos, de secuencias de ITS de alta calidad. GalaxieBLAST también puede ser usada para inferir afiliaciones filogenéticas de secuencias taxonómicamente desconocidas. Y la base de datos AFTOL que ayuda a la caracterización de comunidades de hongos, por herramientas moleculares y morfológicas. Sin embargo proponen al ITS 1 como marcador de comparación para definir características taxonómicas más profundas. Así que desarrollaron ITSoneDB que es una colección de secuencias ITS 1 del reino de los hongos. Como paso inicial colectaron las potenciales secuencias, creado por la consulta de Genbank. Para identificar la región del ITS1 construyeron un diccionario que contenía todos los términos y sinónimos usados en Genbank. Segundo paso extraer las posiciones iniciales y finales de cada región. Tercer paso validar y rediseñar los límites del ITS1 por mapeo de HMM para los genes 18S y 5.3S, posteriormente las bases fueron analizadas con el valor de E-value y probabilidad. Cuando había presencia de intrones se hacían análisis adicionales en el gen 18S para volver a definir bien los límites. Subsecuentemente ambos tipos de anotaciones son reportadas en el ITSoneDB. Con el propósito de proveer una colección curada para usar de referencia las secuencias de ITS1, similar a la búsqueda de un análisis metagenomico a base de amplicones. Y a futuro poder incorporar BLAST para que puedan los usuarios comparar sus propias secuencias ambientales dentro de la base. Así mismo se esperan avances dentro de las bases de datos que puedan permitir el progreso del estudio de las comunidades de hongos.
Este artículo es un review de bases de datos metagenómicas que sirven para hacer la asignación taxonómica cuando secuenciamos DNA ambiental. La correcta asignación de funciones y contexto funcional de los genes es crucial si se desea caracterizar las especies dentro de su ambiente. Hay bases de datos de procariontas que están bastante bien caracterizadas, porque hay un consenso relativamente bien hecho al respecto de las secuencias de 16S, que es la secuencia más común para hacer asignaciones taxonómicas dentro de este tipo de organismos. La taxonomía está desarrollada como lo muestra la figura 1. La tabla 1 resume las referencias principales para hacer comparaciones de secuencias con secuencias anotadas. La metagenómica está enfocada en organismos procariontes pero la tendencia es cada vez más caracterizar hongos y otros microorganismos; la desventaja es la ausencia de consenso al respecto de las secuencias que se usan para asignar las clasificaciones taxonómicas. Las bases de datos discriminan usando las secuencias ITS1 e ITS2 (internal transcribed spacer). Una de las bases de datos más buenas es ITSoneDB, que posee muchas secuencias de ITS1. La figura 2 muestra como se estructura esta base de datos con nuevas secuencias.
Creo que el esfuerzo de hacer y mantener bases de datos, aunque tedioso, es crucial para que los estudios de metagenómica tengan validez. Estando en una etapa en el presente donde éstas apenas se están completando, creo que seguir protocolos estrictos ahora, disminuye la probabilidad de resultados espurios en el futuro.
Los comentarios están cerrados.