25 de febrero: Bioinformatic approaches for functional annotation and pathway inference in metagenomics
De Filippo, C., Ramazzotti, M., Fontana, P., & Cavalieri, D. (2012). Bioinformatic approaches for functional annotation and pathway inference in metagenomics data. Briefings in Bioinformatics, 13(6), 696–710. doi:10.1093/bib/bbs070
Metagenomic approaches are increasingly recognized as a baseline for understanding the ecology and evolution of microbial ecosystems.The development ofmethods for pathway inference frommetagenomics data is of paramount importance to link a phenotype to a cascade of events stemming from a series of connected sets of genes or proteins. Biochemical and regulatory pathways have until recently been thought andmodelled within one cell type, one organism, one species.This vision is being dramatically changed by the advent of wholemicrobiome sequencing studies, revealing the role of symbiotic microbial populations in fundamental biochemical functions. The new landscape we face requires a clear picture of the potentialities of existing tools and development of new tools to charac- terize, reconstruct and model biochemical and regulatory pathways as the result of integration of function in complex symbiotic interactions of ontologically and evolutionary distinct cell types.
Keywords: metagenomics; next-generation sequencing; microbiome; pathway analysis; gene annotation
11 comentarios
Control de lectura 16
Bioinformatic approaches for functional annotation and pathway inference in metagenómicos data De Filippo, C., Ramazzotti, M., Fontana, P., & Cavalieri, D. (2012). Bioinformatic approaches for functional annotation and pathway inference in metagenomics data. Briefings in Bioinformatics, 13(6), 696–710. doi:10.1093/bib/bbs070
Definitivamente una ruta funcional no es lo mismo si la vemos a nivel de individuo a si la viéramos a nivel de comunidad. Es importante replantear conceptualmente lo que es una ruta. Sabemos gran cantidad de información funcional gracias a la implementación de técnicas moleculares tal como Sanger, que dominó por muchos años. Con la llegada de la nueva generación en secuenciación las opciones que se presentan para el entendimiento ecológico y evolutivo de las comunidades son mayores. Extraer información se ha hecho fácil gracias a estas metodologías, sin embargo su análisis no es nada fpacil. Nos debemos valer de herramientas informáticas (bioinformáticas) para analizar los aspectos de interés relevante. Hay una gran cantidad de bases de datos de genes, rutas metabólicas y rutas de flujo de materia y energía en las comunidades que son relevantes para llevar a cabo estudios metagenómicos, comparar la funcionalidad de comunidades diferentes y reconstruir y simularlas. El esquema que se muestra en la figura 1 es como la receta de cocina para llevar a cabo estudios metagenómicos de funcionalidad de comunidades. Desde la obtención de DNA, su secuenciación, el mapeo de las secuencias, su ensamblado, asignación de rango taxonómico, inferir funcionalidad hasta reconstruir las rutas metagenómicas y comparación entre comunidades. Sin duda las herramientas bioinformáticas son de gran ayuda para llevar a cabo este tipo de análisis.
Esta revisión está enfocada en evaluar los procedimientos bionformáticos disponibles para la anotación funcional y la inferencia de rutas a partir de la información que se obtiene por metagenómica.
La metagenómica ha permitido conocer la gran diversidad que existe y que por muchos años no fue abordable por las limitaciones en el cultivo de muchas especies. Con el incremento en los datos que se han obtenido por ésta técnica ha sido necesario que se mejoren también los programas que permiten la obtención, manejo y la evaluación de los datos.
Una ruta biológica se define clásicamente como el conjunto de interacciones moleculares que dan como resultado un producto determinado o función celular, lo que ha saltado a la vista con la metagenómica que esas interacciones no necesariamente ocurren entre proteínas de un organismo sino que pueden darse entre diferentes organismos, lo que puede definirse como una meta-vía.
Estas interacciones inter-organismos incrementan sustancialmente la dificultad al realizar análisis simultáneos de comunidades microbianas complejas. Esta revisión muestra un diagrama de flujo general de los pasos que deben seguirse para reconstruir una vía a partir de datos de metagenómica, lo anterior con el uso de diversos programas que pueden o no estar basados en las mismas consideraciones.
Considero que esta revisión da una visión general del proceso que se debe seguir y sobre todo, al comparar diversos algoritmos entre sí, brinda (de manera general) una base para poder discriminar al momento de elegir uno u otro. Lo que me gustó de este artículo es que invita a replantearse el concepto de vía que tenemos e ilustra las dificultades que el ensamblaje de vías enfrenta: a la par que la información crece los programas que permitan el manejo de esa información deberían desarrollarse también.
Una perspectiva que me parece interesante es el impacto que las meta-vías tendrán cuando sean descritas, por ejemplo en el caso de la microbiota del tracto digestivo del ser humano esa información puede ser relevante para muchos procesos tanto normales como patológicos o incluso cambiar la forma en que nos vemos a nosotros mismos.
Se revisan los acercamientos bioinformáticos para la anotación funcional y la inferencia de vías metabólicas a partir de secuencias metagenómicas, comparándose las ventajas, desventajas de dichos acercamientos y la forma en que otros acercamientos pueden resolver y sobrellevar los inconvenientes. Por otra parte se resalta la importancia de la obtención de nuevas herramientas para caracterizar, reconstruir y modelar vías metabólicas. La anotación de secuencias metagenómicas no es algo trivial, se necesita aplicar conocimiento matemático, algoritmos y acercamientos bioinformáticos que permitan responder que organismos viven en una determinada muestra ambiental y las funciones metabólicas que desempeñan, a partir de sus secuencias de DNA. El proceso que se tiene que seguir para responder dichas preguntas, se ve obstaculizado por la propia naturaleza fragmentada del metagenoma, desde la falta de genomas de referencia, hasta el manejo y estandarización de los datos. Ahora bien, uno de los retos que se tienen que superar con acercamientos bioinformáticos, es codificar las reglas que permitan entender las vías metabólicas desde un punto de vista de “flujo de información”. Es decir, las vías metabólicas, están definidas clásicamente como una serie de interacciones moleculares que conducen a cierto producto o función celular. En el campo de la metagenómica este concepto clásico no aplica ya que no se esta estudiando a un solo organismo, si no una comunidad, por lo que tiene que ser reinterpretado en términos de flujo de información a lo largo de diferentes especies. Además de esto, los autores sugieren que se requiere un análisis simultáneo de comunidades microbianas complejas para diferenciar entre vías metabólicas de un solo organismo y meta-vías, construidas por la combinación de partes de una vía, de múltiples organismos. Lo anterior con el fin de poder enfatizar el flujo de las interacciones entre los organismos e identificar las funciones metabólicas que se llevan a cabo en una comunidad microbiana. La estandarización de la representación las vías metabólicas a modo de flujo de información, donde se represente la producción de un determinado metabolito y su entrada o aprovechamiento por organismo, será un reto bioinformático que tendrá que superarse en poco tiempo, ya que la naturaleza de los acercamiento metagenómicos, necesariamente requiere el análisis y presentación de la información de manera integral para analizar las comunidades microbianas.
Bioinformatic approaches for functional annotation and pathway inference in metagenomics data
La construcción de las rutas metabólicas y su descripción ha tomado importancia, para poder proporcional modelos basados en genomas, que han acumulado repertorios de proteomica, transcriptomas, y metabolomas. Para poder predecir su comportamiento de una manera matemática y mecánica. Sin embargo para la metagenomica, las rutas no provienen de una sola especie, sino de un conjunto de ellas que derivan en redes funcionales. La construcción taxonómica, apoya a poder encontrar función-gen. El 16SrRNA sigue siendo una opción para un rápido bosquejo de taxonomía. Los algoritmos utilizados en ensamblaje de genomas simples, son comúnmente usados para los metagenomas, lo cual no es correcto debido a la desigualdad de reads y su baja cobertura, utilizando tres tipos de estrategias, OLC, DBG, y greedy graph. Otra limitante es la alta frecuencia de polimorfismo y variación génica de hábitats diversos que ocasionan errores de alineamientos, así que nuevos ensambladores como DBG-driver están siendo adaptados para disminuir los errores, también META-IDBA y METAORFA que utiliza ORF en vez de genes, para hallar funciones génicas se han utilizado ampliamente los modelos de Markov, especializado en la estructura génica de organismos similares, también MetaGene utiliza modelos estadísticos usando las bases di-codón, incorporando patrones especies específicas, en sitios de unión de los ribosomas. Glimmer- MG integra la filogenia y agrupación de frecuencias. Otra técnica utilizada para hallar funciones es tratar los reads como datos de transcriptomas y tratar de mapearlos con referencias genómicas. El FR-HIT, muestra una exactitud parecida al BLAST pero con una mayor consistencia, así la cuantificación bruta es seguida por la normalización para la referencia de longitud de la secuencia de codificación, aunque tiene el obstáculo de secuencias conservadas debido a la homología funcional de distintos organismos, siendo asignados a diferentes blancos con un alta abundancia. Así mismo debido a la heterogeneidad de las muestras poder localizar las rutas funcionales ha sido una traba y un erros para los metagenomas, proponen varias plataformas que utilizan diferentes enfoque para hacer frente a los limitantes. Como el KEGG una base de datos que tiene subsistemas modulares que componen las rutas y pueden ser separadas. Para la reconstrucción de redes metabólicas, se ha utilizado utilizar los fragmentos sin el paso de amplificación que permiten las tecnologías de siguiente generación, y ser comparadas con bases de datos de proteínas y nucleótidos para sacar datos taxonómicos, MeGa, CARMA, Y Sort-ITEMS son algunos ejemplos de este tipo de herramientas.
La bioinformática resulta ser un adisciplina muy importante tanto para el manejo de datos así como para el análisis de la información que surge de la metagenómica.
Como parte del análisis de las comunidades a través de esta aproximación, el ensamblaje de secuencias y a asignación de función al localizar posibles genes codificantes representa un reto. Con la creciente cantidad de informacion, la bioinformática va tratand de desarrollarse a la par, pero aún tiene rezagos. Si bien, hay una gran cantidad de programas y bases de datos que proporcionan buenos resultados (usando diferentes aproximaciones por medio de diferentes algoritmos y referencias) y que día a día van enriqueciendo la información que poseen. Así mismo, el enfoque de aplicar la bioinformática en el análisis de función u de vías metabólicas presentes en el metagenoma estudiado, requere del análisis de gran cantidad de información por medio de comparaciones de secuencias y/o metagenomas, por lo que bases de datos más robustas proporcionan mejores datos para un análisis más eficiente.
El tener la información sobre los diferentes programas y bases de datos que pueden utilizarse en los diferentes pasos del análisis de metagenomas es muy ventajoso. Entender los pros y contras nos permitirá en su momento seleccionar la más adecuada para nuestras necesidades o incluso el combinar herramientas de acuerdo al contexto de nuestro s propios datos. Igualmente, el entender el fundamento de cada programa es importante para el buen uso y análisis de la información. Todo ello en pos de una mejor comprensión de la función de la comunidad con el ecosistema y las relaciones dentro de la misma comunidad que está siendo análisada a través del metagenoma.
La Metagenómica ha incrementado la información referente a la diversidad, evolución y funcionamiento de las comunidades microbianas. La bioinformática ha sido la alternativa que se ha enfocado en la generación de programas para su análisis, con lo cual se ha podido establecer la estrategia a seguir y la selección de los elementos necesarios que describan y exploten al máximo dicha información.
Uno de los avances más importantes ha sido la generación de redes funcionales que han conectado de manera específica los procesos que llevan acabo los microorganismos; con lo cual se pretende hacer una interconexión con los diferentes taxas y los genes que realizan dichos procesos. Esto sería de vital importancia para entender el funcionamiento e interconexión entre las poblaciones que conforman a las comunidades microbianas.
Por otro lado, con la información que se tiene disponible hasta el momento es más fácil realizar los ensamblajes de los genomas nuevos secuenciados. Esto se hace estableciendo la homología de las nuevas secuencias con las que están disponibles y así es más determinar su identidad genética. Este proceso es mucho más fácil cuando se comparan microorganismos que son filogenéticamente cercanos. Sin embargo, también es importante las propiedades de la información que se obtuvo de la secuenciación, principalmente la longitud de las secuencias que serán comparadas. Aunque esto ha facilitado este tipo de análisis, asociado a la cantidad de información disponible y de programas para su análisis, no ha dejado de ser un proceso libre de errores.
Otro proceso para el que se han desarrollado diferentes alternativas es el nombramiento de funcional de los genes, que es una parte crucial en la metagenómica. Este proceso depende de la abundancia de los microorganismos. Por otro lado, es muy importante la parte cuantitativa de estos análisis, para lo cual se han utilizado diferentes algoritmos que ayudan en el proceso de establecimiento de la función. Así también, este proceso se realiza considerando algunos de los principios básicos del análisis de la información genética, como establecer el número de sustituciones sinónimas y no sinónimas, identificándose la posible influencia que tiene este gene o grupo de genes en el funcionamiento de los microorganismos.
A pesar de la cantidad de programas que se tienen disponibles y de la gran cantidad de información que han generado, aún no son lo suficientemente amplios para analizar los diferentes aspectos que abarcan la diversidad y funcionamiento de las comunidades microbianas, por lo cual se siguen buscando nuevas estrategias que en corto tiempo podrían cambiar la forma en se desarrollan este tipo de análisis y aumentar todavía más su utilidad.
En este paper se deja claro la importancia que tiene el estudio de los metagenoma, lo que es relevante de este review, es la forma en la que nos presentan las direferentes aproximaciones para hacer iferencias con herramientas bioinformáticas a partir de los datos derivados de los metagenomas, nos comentan de manera detallada como a partir de tener DNA genómico y datos de secuenciación podemos inferir y comparar estos datos con las bases existentes de tal manera que al final el análisis tenemos herramientas para sugerir rutas metabólicas.
Me parece que estos papers son relevantes debido a que hacen un compendio de lo que ya se tiene en cuanto a bases de datos, por ejemplo, en la fig. 1 del artículo, nos llevan de la mano, de manera esquemática, del las bases de datos que se requieren en cada paso del análisis.
Evidentemente, no es un artículo sencillo de revisar, ya que para entenderlo a profundidad, al menos en mi caso, necesito poner en práctica o hacer los análisis de la manera en que los sugieren, para poder ver de manera práctica los alcances y desventajas que puedan tener hasta el momento los recursos con los que contamos.
Otras veces se ha mencionado que la metagenómica ha revolucionado la microbiología, sin embargo con este articulo nos damos cuenta de cómo otras áreas por ejemplo la bioquímica se ven enriquecidas con esta herramienta.
La metagenómica como el estudio de una comunidad no solo nos dice ¿Quienes están? También nos habla de ¿Que están haciendo?, de modo que cuando uno infiere rutas metabólicas desde un metagenoma se les empieza a entender como una red donde existe un flujo de información entre diferentes especies, una visión que me parece innovadora pues te lleva a conjuntar diversas áreas del conocimiento.
El articulo menciona las diferentes herramientas que se pueden utilizar para inferir una función o una ruta. La información taxonómica por ejemplo puede ser la base para inferir una ruta metabólica, si se sabe quien esta ahí y se conocen los genomas. Reclutar genes es importante por que permite la anotación y la caracterización del potencial funcional, uno de los algoritmos clásicos utilizados en este punto es el modelo de Markov. El ensamble de un metagenoma depende de la cobertura y la diversidad (si es un sitio poco diverso no se necesita mucha cobertura) programas como Meta-Velvet se pueden utilizar para esta aproximación. Una forma sencilla de asignar función es buscando similitud con las secuencias de referencia.
Existen diferentes herramientas que te permiten hacer inferencias metabólicas, se inicia asignando una categoría taxonómica a los fragmentos (TETRA), esta información se combina con la de las rutas metabólicas conocidas y se transforma en un modelo matemático, que finalmente con el uso de otras herramientas (COBRA) se simplifica para hacer sentido bilógico.
Me gustaría resaltar un concepto que se menciona en el articulo y es comunidad microbiana, pues muchas veces se utiliza el termino para referirse a una comunidad bacteriana sin embargo es importante tener en mente que una comunidad microbiana esta compuesta por virus, hongos, levaduras y arqueas. Finalmente este articulo resulta una buena introducción al tema y una buena guía para quien desea incursionar en este campo.
El artículo se enfoca en la anotación funcional y reconstrucción de las rutas metabólicas a partir de datos metagenómicos. Una buena parte de la revisión se enfoca de nuevo en los pasos y herramientas bioinformáticas que se utilizan en la metagenómica como se menciona en el artículo de Teeling y colaboradores. En la figura y tabla 1 se resumen las etapas del proceso, los algoritmos y servidores utilizados para el análisis. Una vez que se resuelve el problema de asignar funciones y hacer la correspondiente asignación taxonómica de las lecturas se buscan las rutas metabólicas presentes en los datos y con dicha información conjunta se construyen modelos genómicos y modelos de rutas, además de existir herramientas para reducir la información, de modo que pueda ser comparada con otros metagenomas. Me pareció interesante el concepto de un super-metabolismo aludiendo a que las muestras son un superorganismo en términos del flujo energético en donde interviene toda una comunidad y al analizarla sólo vemos partes de las rutas metabólicas involucradas, pero se puede asignar ciertas enzimas y reacciones bioquímicas a los organismos presentes e inferir posibles funciones dentro del ecosistema e incluso encontrar relaciones simbióticas (a partir de las enzimas ausentes o presentes) o interacciones biológicas particulares dentro de la comunidad. Sin embargo, también queda evidente que dependemos mucho de una adecuada anotación y una asignación correcta de funciones, lo cual se dificulta todavía en los metagenomas dado que hay mucha diversidad y muchas proteínas o genes que aún son de función desconocida. Termina con lo importante que ha sido el esfuerzo internacional y en particular el aporte del metagenoma humano (Consorcio MetaHIT, HMP, y otros) para seguir desarrollando el análisis metagenómico.
Este trabajo, al igual que el de Teeling & Glökner, se enfoca en los procesos bioinformáticos para la anotación funcional y la inferencia de rutas metabólicas a partir de datos metagenómicos dando un énfasis particular a las llamadas “super-meta-vías”. Para la reconstrucción de estas vías metabólicas se emplea una colección de repositorios con información de expresión de genes, expresión y modificación de proteínas así como la producción de metabolitos.
El uso de datos metagenómicos para este tipo de reconstrucciones nos ha permitido conocer no solo procesos presentes en un ambiente dado, sino que ahora contamos con la posibilidad de conocer la conectividad entre los distintos elementos u organismos tal como lo hicieron al analizar a Buchnera aphidicola y su relación con su anfitrión, donde se observó una coordinación complementaria entre ambos organismos.
Nuevamente se menciona aquí el problema al que uno se enfrenta al momento de realizar el ensamble pues uno de los factores que incrementa más el grado de complejidad es la frecuencia de polimofirmos y variaciones genómicas que pueden llegar a generar contigs quiméricos, y el resultado final de este trabajo termina dependiendo en buena medida de la estructura y complejidad de los datos metagenómicos. Una vez que se tiene el ensamble, el siguiente paso es el encontrar genes y realizar una asignación funcional. Tradicionalmente esto se hace con predictores basados en HMM entrenados para un organismo particular, por lo cual no son del todo eficientes para datos donde encontramos distintos organismos, por lo cual se ha optado por incorporar a los modelos donde se maneja el uso diferencial de codones de los genomas disponibles, pero aun así hay que recordad que éstos datos derivan en buena medida de organismos modelo o cultivados en laboratorio, por lo cual es altamente probable que no estemos detectando una gran cantidad de información de organismos no presentes en nuestras bases de datos.
El análisis de vías metabólicas es otro de los retos a los cuales se enfrenta la comunidad hoy en día pues muchas de las herramientas utilizadas están basadas en estudios de expresión en microarreglos, siendo que la gran mayoría de los trabajos realizados están basados en la abundancia de secuencias de DNA y no de expresión génica. En lo que respecta a la inferencia taxonómica, uno de los métodos que se están utilizando es el de modelos metabólicos basados en genomas, en los cuales se realiza un mapeo en los mapas metabólicos de los genomas completos, lo cual permite enmarcar un gen en su contexto metabólico. La combinación de este método de inferencia con modelos por ejemplo taxonómicos de reconstrucción se ha visto que incrementan la confiabilidad de estas inferencias.
Con la metagenómica se está desarrollando una nueva forma de realizar anotaciones, en la cual no nos enfocamos en un solo organismo, si no que se considera toda la red metabólica de la comunidad, pues es cuando vemos la imagen completa que podemos realizar inferencias y entender de mejor manera el funcionamiento de la comunidad.
El artículo es otra revisión de métodos para organizar la información de un survey metagenómico y para efectuar comparaciones, pero esta vez se enfocan en vías metabólicas. Me parece que lo más importante de conocer un genoma, es poder inferir cosas acerca de sus funciones en su contexto, puesto que la información que los genes tienen no sirve de nada si no se encuentran en un ambiente específico. Los enfoques metagenómicos tienen la ventaja de que tratan de relacionar la información en un contexto de las vías metabólicas que son relevantes para el gen en cuestión. En este artículo tenemos una revisión bastante buena de todas las bases de datos y métodos que sirven a este propósito. En general hay información que es redundante con el artículo de Teeling, pero se hacen consideraciones especiales al respecto del análisis de vías metabólicas para comparar poblaciones entre bases de datos metagenómicas, lo cual me parece un método muy objetivo para determinar poblaciones, pues por más que uno tenga una familia de parálogos duplicados, las vías metabólicas no pueden variar tanto sin reflejar una diferencia funcional verdadera. Subiendo en la escala, como además se menciona en la figura 2, es extremadamente relevante que las vías metabólicas pueden estar unidas entre varios organismos en un todo funcional. Para mí esto es evidencia de que hay algo más en una comunidad que solamente una simple coincidencia de poblaciones.
Los comentarios están cerrados.