25 de febrero: Current opportunities and challenges in microbial metagenome analysis–a bioinformatic perspective
Teeling, H., & Glöckner, F. O. (2012). Current opportunities and challenges in microbial metagenome analysis–a bioinformatic perspective. Briefings in bioinformatics, 13(6), 728–742. doi:10.1093/bib/bbs039
Metagenomics has become an indispensable tool for studying the diversity and metabolic potential of environmental microbes, whose bulk is as yet non-cultivable. Continual progress in next-generation sequencing allows for generating increasingly large metagenomes and studying multiple metagenomes over time or space. Recently, a new type of holistic ecosystem study has emerged that seeks to combine metagenomics with biodiversity, meta-expression and contextual data. Such ‘ecosystems biology’ approaches bear the potential to not only advance our understanding of environmental microbes to a new level but also impose challenges due to increasing data complexities, in particular with respect to bioinformatic post-processing. This mini review aims to address selected opportunities and challenges of modern metagenomics from a bioinformatics perspective and hopefully will serve as a useful resource for microbial ecologists and bioinformaticians alike.
12 comentarios
Control de lectura 17
Current opportunities and challenges in microbial metagenome analysis- a bioinformatic perspective Teeling, H., & Glöckner, F. O. (2012). Current opportunities and challenges in microbial metagenome analysis–a bioinformatic perspective. Briefings in bioinformatics, 13(6), 728–742. doi:10.1093/bib/bbs039.
Éste artículo es como el de Wooley et al. (2010), en el que se mostraba “la receta de cocina” de cómo hacer un estudio metagenómico, de manera ordenada, paso a paso y las herramientas de las cuales te puedes valer para llevar a cabo dicho estudio. Aquí se habla también un poco de las complicaciones metodológicas en cada uno de los pasos y la manera en la que puede evidenciarse éstas limitaciones y como atacarlas. Cuando uno trabaja con organismos cultivables pensamos en el sesgo que los medios de cultivo representan en la recuperación de la diversidad de la comunidad. Uno se va con la idea de que la metagenómica es la “buenas” pero no nos ponemos a pensar en los sesgos que también posee esta metodología. Tan solo que para entender una comunidad, la obtención, ensamble y análisis de datos no será la misma si estudias una comunidad poco diversa a si lo haces con una más compleja. Hay una gran cantidad de herramientas bioinformáticas que nos ayudan en el análisis, en cualquiera de los pasos de la “receta metagenómica”, contamos con paquetes computacionales y bases de datos que nos hacen más fácil estudiar las comunidades.
El artículo es una revisión de los distintos pasos en los que consta un estudio
Aunque se han depositado más de 3 millones de secuencias del RNAr 16S de bacterias y arqueas en la base de datos SILVA esto representa sólo una pequeña fracción de toda la diversidad que existe. Por mucho tiempo la caracterización de los organismos estuvo sujeto a si podían o no cultivarse en laboratorio, este enfoque permitió estudiar el metabolismo y los genes de manera individual. Con el advenimiento de la metagenómica se pudo sortear el obstáculo de tener que cultivar un organismo para poder estudiarlo y se han podido estudiar comunidades microbianas in extenso.
Al combinar los datos obtenidos con la metagenómica con datos de biodiversidad como la expresión in situ y los parámetros ambientales es posible estudiar a los ecosistemas de forma holística. Esta visión implica tomar en consideración diferentes variables como el hábitat, la estrategia de toma de muestra, la forma de secuenciar, el ensamblaje, la predicción de los genes, la clasificación taxonómica y el análisis de los datos para integrarlos e interpretarlos.
Esta revisión brinda una visión general de las consideraciones que deben hacerse al abordar un enfoque metagenómico. Si bien en cada paso hay puntos importantes a considerar, el punto crítico es el análisis de los datos una vez que se han obtenido por lo que es necesario utilizar varios programas y sobre todo ser muy crítico al analizar los resultados obtenidos. Si bien por muchos años la limitante para la metagenómica fue el costo y las técnicas existentes para la generación de la información, el desarrollo de técnicas más eficientes y baratas ha permitido que esto ya no sea una limitante. Ahora el énfasis debe hacerse en cómo se almacena, ensambla e interpreta la información, por lo que el desarrollo de mejores programas podría facilitar esto.
El artículo es una revisión de los distintos pasos en los que consta un estudio metagenómico desde el punto de vista bioinformático. Me agradó que nos resume cada uno de los aspectos que debemos considerar y su importancia, desde elegir el hábitat considerando sus implicaciones en cuanto a la diversidad y las dificultades del sistema (complejidad, heterogeneidad, clonalidad), el muestreo (lo importante que es filtrar por tamaños, por ejemplo para reducir la complejidad y enriquecer el grupo de organismos que deseamos estudiar), el hecho de trabajar con pseudoréplicas dado la inversión que implica cada experimento, la relevancia que han tenido las tecnologías de secuenciación masiva (haciendo comentario muy breve sobre el tamaño de las lecturas, tasa de error y cobertura), el ensamblado (ventajas de hacer un mapeo de lecturas, el problema de quimeras), la predicción de genes (un paso crucial pero que ofrece muchos retos dado la naturaleza fragmentada tanto a nivel de lecturas como de contigs ensamblados), la asignación taxonómica de las secuencias (binning) usando diferentes métodos basados en búsquedas en las bases de datos o en las características inherentes a la secuencia como la composición de nucleótidos (tetra o hexanucleótidos), la estimación de la biodiversidad usando el gen del 16S ribosomal (el problema de la subrepresentación del gen en los datos o de los sesgos en cuanto al número de copias del gen), el análisis funcional (anotación de los genes, asignación de funciones y reconstrucción de vías metabólicas), lo importante que es también la automatización de los procesos dada la gran cantidad de información que se tiene que integrar, incluyendo aspectos del manejo, codifación y creación de estándares para el manejo de los metadatos o información contextual asociada a los proyectos metagenómicos (GCS, MIMS), y finalmente el gran problema creciente de subir y bajar la información a servidores cuando una sola corrida de Illumina HiSeq2000 produce datos en el orden de varios terabytes. En conclusión el artículo nos da el panorama desde el punto de vista del manejo de datos e información y la gran cantidad de algoritmos y software, servidores para el pipeline, que se han tenido que desarrollar para este tipo de proyectos.
Current opportunities and challenges in microbialmetagenome analysisça bioinformatic perspective
En este artículo menciona los enfoques o las consideraciones que se deben de tomar en cuenta, cuando hacemos un análisis metagenomico, los retos o dificultades que se enfrentaran y algunas propuestas para poder disminuir el margen de error que suscita al momento de analizar nuestros datos en diferentes plataformas. Es una ayuda general pero útil al momento en que podría considerar el estudio de comunidades a través de metagenomas. Comienza por la selección del hábitat, bastante congruente, cuando se desea estudia un hábitat con bastante heterogeneidad ambiental aumenta el error de al momento de ensamblar ocurran incongruencias genómicas. Mientras que se puede idealizar el estudio de poblaciones con una numero bajo de diversidad o delimitar la escala como una foto dentro del ecosistema. Que también ayuda a poder delimitar el sistema de muestreo, al aumentar la información sobre la especie al estudiar y el tamaño de nuestros organismos de estudios, ya que puede haber un sesgo al momento de filtrar nuestras muetras cuando estas tienen medidas similares a algunos contaminantes. La replicación no es algo que pueda ser muy aplicable a la ecología microbiana debido a los parches ambientales que dominan en estos microambientes, se considera que las réplicas verdaderas son las repeticiones de los métodos de secuenciación tanto la preparación de las librerías por lo que a veces es más aplicable utilizar más muestras. o la comparación de submuestras en distintas series de tiempo. En cuanto la secuenciación, con los métodos de la siguiente generación ha logrado evadir el paso de clonación eliminado sus problemas inherentes. Sin embargo ahora ha habido un cambio en las longitud de los read, 454 los reads tienen mayor longitud pero menos cobertura, mientras que ilumina tiene más cortos read pero mayor cobertura igualando en precios. Aunque se espera que este sea un obstáculo que se pueda solucionar en un futuro próximo. El ensamblaje sigue presentado varios sesgos al momento de hacerlo en metagenomas. El uso de librerías podría ser un buen soporte para poder apoyar el ensamblaje aunque se requiere que la muestra no varié demasiado de forma intraespecifica. Para poder evitar un poco el error de abundancia, las frecuencias génicas deben ser comparadas a nivel de read y no de ensamblaje. Genovo y MetIDBA tratan de solucionar estos errores al construir también representaciones taxonómicas, mas que ensamblajes convencionales. La predicción de genes puede hacerse de 3 maneras: clasificación taxonómica (asignar funcio+taxón+secuencia) utilizando similitud entre secuencias de metagenomas y secuencias taxonómicas conocidas. Clasificación en base gen (nivel de secuencia de proteínas) las secuencias debes ser pasadas a secuencias codificantes y traducidas a secuencias de proteínas, para proceder en un alineamiento por BLAST contra bases como NCBI e inferir información taxonómica a partir de HMMER contra Pfam. Otra forma son las secuencias génicas usadas como referencia contra conocidas taxonomías para read como el caso de EnvOlite. El uso de combinados métodos es actualmente la herramienta más razonable, para convertir los metagenomas en taxobins, usando los datos antes de ensamblarse que reducirá la complejidad antes de ensamblar. Para poder determinar la diversidad a través del 16SrRNA, el método 454 de pirosecuencias no es adecuado, es mejor la plataforma de Illumina que tiene un mayor rendimiento en estos fragmentos aunque enfrenta las consecuencias de mantener read cortos.
La secuenciación de DNA ambiental, la aproximación metagenómica al estudio de los microorganismos, es la herramienta para estudiar comunidades microbianas y los datos que se obtienen de estos estudios se pueden integrar con datos de estudios metabólicos y tener así estudios integrativos de biología de ecosistemas.
Para un estudio metagenómico se prefieren habitats con pocas especies pero de más importancia es que tengan coherencia genómica. En cuanto al muestreo, si lo que se busca es estudiar la función general de un habitat la muestra debe ser representativa, aunque debido a los problemas que representa muestrear del ambiente, aún el metagenoma más estricto sólo representa una fracción del repertorio total de organismos de un habitat dado.
La secuenciación de última generación ha permitido secuenciar DNA del ambiente directamente y saltar el paso de la clonación, lo cual hace el proceso en este nivel más eficiente. Los factores que determinan la resolución a la cual se puede evaluar el repertorio de genes de una comunidad microbiana son: la longitud de las lecturas obtenidas, la tasa de error y el throughput (pares de bases por corrida).
Se han desarrollado programas de predicción de genes para metagenomas que funcionan para secuencias cortas pero difieren en el método de identificación del RBS y por lo tanto en la predicción de los inicios de traducción. Una vez identificadas posibles secuencias codificantes un problema importante es clasificarlas taxonómicamente, para lo cual existen diferentes estrategias: clasificación basada en genes, usando BLAST o información taxonómica obtenida de búsquedas en HMMer; clasificación basada en firma, la débil pero detectable señal filogenética del DNA; clasificación basada en mapeo, usando genomas secuenciados como referencia y la clasificación combinatoria, usar todos los métodos, que es la aproximación más completa.
El análisis funcional se refiere a asignar función a los genes comparando a través de búsquedas en bases de datos, el problema de los metagenomas es que la mayoría de los genes no tienen funciones conocidas, entonces se ha propuesto agrupar ORFs como si se agruparan OTUs y obtener familias de proteínas operacionales. Para el análisis completo de un metagenoma se tienen que considerar los datos contextuales (metadata) como la descripción del habitat al momento de tomar la muestra y el procedimiento que se siguió para muestrear. Estos datos además se tienen que incluir en las bases de datos, ya que eventualmente son necesarios si se quieren ver correlaciones entre geografía, tiempo, condiciones ambientales, etc.
El análisis de la diversidad microbiana ha estado limitado porque no todos los microorganismos tienen la capacidad de crecer en los medios de cultivos que se utilizan para su aislamiento. Actualmente, esta limitante está siendo superada con la aplicación de la Metagenómica para el análisis de dicha diversidad en una gran variedad de muestras ambientales. La información que se ha generado con esta herramienta ha sido muy abundante y ha sido de vital importancia en conocer la diversidad, evolución y funcionamiento de las comunidades microbianas. Los ecólogos microbianos ha aprovechado dicha información tratando de hacer conexiones de los aislados a su posible papel funcional que tienen en el ambiente. Esto ha sido abordado de dos formas, una tratando de establecer la identidad genética de las secuencias y, la otra al tratar de establecer su papel funcional. Está información puede ser relacionada con trabajos previos de diversidad, parámetros ambientales y, recientemente, con los nuevos análisis de metatranscriptómica y metaproteómica.
Los resultados obtenidos van a depender de la abundancia y coherencia genética de los microorganismos que están presentes y del proceso de selección de la complejidad de la muestra. Una cuestión que ha sido considerada es la obtención de replicas de la muestra, ya que la composición microbiana suele cambiar de un momento a otro. En relación al procesamiento de las muestras, las nuevas generaciones de equipos de secuenciación ha propiciado a la obtención de una mayor cantidad de información, pero existen algunos puntos débiles en su aplicación; sin embargo, se pueden utilizar varias estrategias para sobrepasarlos. Durante el ensamblaje de la información es posible armar genomas completos, sí existe poca variación intraespecífica; así también, se debe tener mucho cuidado durante el análisis de la secuencias ensambladas para evitar establecer identidades o funciones erróneas. Así también, la identificación taxonómica va a depender de la presencia de secuencias homólogas en las bases de datos o de metagenomas previos. Está identificación permite hacer interconexiones con información relacionada con la expresión genética, con lo cual se puede tratar de identificar el papel funcional de los microorganismos. Este proceso es más fácil de realizar para los microorganismos que son más abundantes; sin embargo, la mayor parte de la información obtenida no puede ser identificada porque son genes de función desconocida, limitando la descripción funcional de los microorganismos identificados. Por lo que aún hace falta que se desarrollen más herramientas que ayuden al procesamiento, análisis e interpretación de la información obtenida de los metagenomas; sin embargo, se han obtenidos avances muy importantes que han cambiando la forma en que se están abordando los estudios microbianos.
En el estudio de la ecología microbiana se ha visto muy favorecida con la metagenómica pero también, junto con la metatranscriptómica y la proteómica, así mismo, con la gran cantidad de información que se va generando, la bioinformática también toma un lugar importante. Así que el ir perfeccionándose y puliendo detalles así como enriqueciendo las bases de datos es de suma relevancia para proporcionar facilidades para análisis más eficientes y precisos, así como para tener una mejor integración de la información y una mejor disposición y acceso a la información.
Si bien el desarrollo y mejoras en la tecnología de secuenciación supera el desarrollo de las herramientas de análisis post-genómico por la complejidad del análisis, se va desarrollando la infraestructura necesaria para poder tener un análisis más global e integrando información de diferentes ámbitos para una mejor comprensión de la comunidad en análisis. Se van desarrollando nuevos programas o perfeccionando plataformas, ampliando bases de datos que van considerando diferentes etapas del análisis de metagenomas o bien, integran varias etapas en una misma plataforma recurriendo a diferentes bases de datos para efectuar las comparaciones de secuencias, genes, funciones, taxonomías, etc.
Algo que me ha llamado mucho la atención es el manejo de la metadata, recalcando la existencia del Genomic Standards Consortium que ha propuesto la información mínima asociada al metagenoma trabajado (y compartido) requerida para tener una mejor comprensión de éste (estándares y checklist).
Para el llamado análisis holístico (que integra diferentes aspectos del análisis del metagenoma y la información asociada) una de las plataformas que parece ofrece la mejor aproximación es CAMERA.
A pesar de los esfuerzos la diversidad microbiana es tan alta que solo hemos logrado ver la punta del iceberg. Sin embargo la suma de los datos metabolomicos, metatrascriptomicos y parámetros ambientales nos permiten hacer inferencias muy completas. Pero para que esto sea posible se deben considerar varios aspectos en el diseño experimental.
El hábitat es un punto importante pues si se tiene una idea inicial de cuan diverso es el sitio de estudio se puede saber que tan profunda debe ser la secuenciación, información que incluso podría influir en la elección de una plataforma. Lo siguiente sería delimitar el área de muestreo y un punto importante en relación a esto y que ha llamado mucho la tensión son las replicas, ya que como se menciona en el articulo es difícil cumplir con este punto clave de la metodología científica, ya que por ejemplo uno podría muestrear dos sitios separados por unos pocos metros sin embargo la variación que uno pueda encontrar no tiene por que deberse a la metodología con la que se hace. Pero se menciona que se podrían hacer replicas al momento de hacer las librerías para la secuenciación.
El ensamble del metagenoma, dependerá de la cobertura que se tenga (si hay mayor cobertura será más fácil) y el número de genomas secuenciados. La predicción de genes esta asociado al primer punto y se le suma la longitud de los fragmentos. La clasificación taxonómica se puede hacer a partir de la similitud entre secuencias, en este sentido el uso del 16S rRNA dependerá de la calidad de las secuencias y la abundancia. Para el estudio de la diversidad no es muy recomendable por que muchos organismos tienen diferentes números de copias.
Finalmente la tecnología ha permitido acceder a una gran cantidad de información, lo cual se ha convertido en el principal problema pues se necesita gran habilidad bioinformática e incluso desarrollo de conocimiento en otras áreas para seguir generando resultados, esto por que en la actualidad muchas de las funciones nuevas simplemente son desconocidas.
En este «mini» review, como los autores mismos lo nombran, nos llevan paso a paso en lo que se necesita considerar para hacer un metagenoma, en las primeras páginas nos hablan de lo importante que es conocer el hábitat de donde se van a colectar las muestras, así como la manera en que se recolectaran, además de la importancia y complejidad que representa el poder reproducir algunos muestreos, ya que muchas veces son lugares fluctuantes, posteriormente, nos relatan la manera en que se analizarán los datos, los métodos de secuenciación masiva, así como el ensamblaje y todo lo que podemos predecir con las herramientas bioinformáticas que tenemos, nos dan un recorrido por las bases de datos que se utilizan y el tipo de predicciones que podemos hacer a partir del tipo de genes que utilizamos para los análisis.
Para concluir nos hacen énfasis en la importancia que tiene el estudio de los metagenomas y nos ejemplifican los esfuerzos que se están llevando a cabo para el estudio de los metagenomas.
Actualmente con el uso de la metagenómica se ha abierto una nueva forma de analizar la gran cantidad de información que se va generando día con día, esto es una visión que integra la información metagenómica con la biodiversidad y su información contextual.
Entre la gran cantidad de datos que pueden ser incluidos en esta aproximación está lo que es el hábitat. Éste es importante porque para un análisis metagenómico va a ser más fácil analizar aquellos hábitats con altos niveles de clonalidad poblacional pues de esta manera se reducen las posibles incongruencias al momento del ensamble, ya que aun en comunidades con una composición estable, si existen una gran cantidad de micro adaptaciones a nichos particulares, tendremos pan-genomas de gran tamaño, lo cual complicará nuestro análisis. Otro factor que no siempre es considerado al momento de realizar un proyecto metagenómico es el de la importancia de contar con réplicas pues existen complicaciones desde el momento de tomar las muestras hasta el de recursos para poder secuenciar y analizarlos, por lo que los autores proponen para solucionar esto, el realizar pseudo-réplicas a partir del análisis de una sub-muestra o comparar muestras en series de tiempo.
Sin embargo uno de los puntos más importantes para este tipo de estudios son el ensamble, la predicción de genes y la clasificación taxonómica. En lo que respecta al ensamble, como se mencionó anteriormente, aquellos metagenomas con poca variación presentarán un menor reto para su ensamble, llegando en algunos casos a permitir el ensamble de genomas completos como lo describieron Erkel et al (2006). Una diferencia entre los ensambladores tradicionales y los de metagenomas, es que los primeros están diseñados para ensamblar todas las lecturas en una sola secuencia, situación que claramente no es conveniente para un metagenoma, por este motivo han surgido ensambladores metagenómicos diseñados para solucionar este problema. Al igual que con el ensamble la predicción de genes hasta este momento se ha enfocado primordialmente en genomas completos, por lo cual es importante el impulso que se ha dado para los metagenomas pues en este caso las predicciones deben hacerse a partir de genes parciales o sin regiones de inicio o paro. Finalmente para la clasificación taxonómica existen diversas aproximaciones como puede ser la basada en genes con herramientas tradicionales como BLAST, con protocolos basados en HMM, la clasificación basada en firmas que hace inferencias al distinguir entre la composición del DNA y su fondo o la clasificación hecha al combinar métodos basados en DNA y proteínas.
Hoy en día el uso de los metagenomas ha permitido explorar la estructura de las comunidades in situ y no solamente con aquellos organismos cultivables como tradicionalmente se había hecho, sin embargo el diseño funcional de gran parte de las herramientas de análisis con las que contamos actualmente no es el adecuado para el tipo de datos con el que se están trabajando, por lo cual es de gran importancia la generación de herramientas enfocadas específicamente para el manejo de información metagenómica, pues si bien ya contamos con algunas, aun está la posibilidad de poder optimizarlas.
El artículo es una revisión de las formas en que se hace un estudio metagenómico, de los pasos involucrados, de los pitfalls más comunes en cada paso,y de las bases de datos y algoritmos que sirven para hacer estos estudios. Los genes guardan información que, en un contexto adecuado permite construir, literalmente, máquinas moleculares (proteínas) que le confieren al organismo diferentes capacidades. Conocer sus funciones en el contexto ambiental permite tener insights no sólo de el funcionamiento del organismo si no de su funcionamiento en el contexto de otros organismos. Los estudios de comunidades bacterianas con herramientas metagenómicas nos ayudan a conocer precisamente eso. Sin embargo, para hacer interpretaciones correctas, necesitamos considerar cada uno de los pasos de este tipo de metodología y entender cómo extraer la información relevante en cada uno. Para empezar, la calidad del ambiente modifica el tipo de muestra, por ejemplo, no se obtienen el mismo número de secuencias en todos los hábitats, ya que cuando éstos son muy heterogéneos, hay mucha diferenciación de nichos en escalas muy pequeñas, que influyen en que el pan-genoma de las especies sea más grande. Asimismo, aunque un buen muestreo debe implicar varias muestras, la escala de nuevo impone una restricción: ya que estas comunidades se mueven en escalas tan pequeñas, esto quiere decir que muestrear 10 cm a un lado de donde se hizo podría involucrar condiciones ambientales diferentes para los organismos y esto implica que va a haber genes diferentes en cada sitio. Una vez que tenemos la muestra, los retos involucran el ensamble, para evitar la generación de secuencias artificiales o la ausencia de secuencias representativas o que sean componentes importantes de los genomas, pues el objetivo en cuestión es tener una muestra completa de al menos cada uno de los cromosomas. Una vez que este paso se ha finalizado, hay que saber cuáles son los genes dentro de la misma secuencia, para lo cual se necesitan predecir genes. Uno de los problemas más acuciantes es agrupar cada gen con su respectivo taxón. Esto se puede hacer alineando las secuencias contra secuencias almacenadas en bases de datos, o usando la marca propia de composición de cada organismo (expresada generalmente en su composición de bases). También existen metodologías que se basan en el mapeo de las secuencias contra referencias (otras secuencias) bien conocidas: otros genomas; o usando combinaciones de todas éstas. Hay muchas bases de datos que nos proveen de la posibilidad de comparar las secuencias para saber su función, como KEGG o SWISSPROT. La búsqueda además depende del método usado, pues no es lo mismo buscar usando BLAST que HMMer, pues el primer método usa un algoritmo diferente que el segundo, que se basa en modelos ocultos de Markov. La biodiversidad puede ser estimada analizando 16S, que como hemos visto nos da una buena resolución hasta el nivel de género. Debido a todas estas consideraciones, todavía no existe una base de datos metagenómicos estandarizada, además de que la información crece más rápido que nuestra capacidad de analizarla.
Los comentarios están cerrados.