25 de febrero: The metagenomics RAST server
Meyer, F., Paarmann, D., D’Souza, M., Olson, R., Glass, E. M., Kubal, M., Paczian, T., et al. (2008).The metagenomics RAST server a public resource for the automatic phylogenetic and functional analysis of metagenomes. BMC bioinformatics, 9, 386. doi:10.1186/1471-2105-9-386
BACKGROUND: Random community genomes (metagenomes) are now commonly used to study microbes in different environments. Over the past few years, the major challenge associated with metagenomics shifted from generating to analyzing sequences. High-throughput, low-cost next-generation sequencing has provided access to metagenomics to a wide range of researchers. RESULTS: A high-throughput pipeline has been constructed to provide high-performance computing to all researchers interested in using metagenomics. The pipeline produces automated functional assignments of sequences in the metagenome by comparing both protein and nucleotide databases. Phylogenetic and functional summaries of the metagenomes are generated, and tools for comparative metagenomics are incorporated into the standard views. User access is controlled to ensure data privacy, but the collaborative environment underpinning the service provides a framework for sharing datasets between multiple users. In the metagenomics RAST, all users retain full control of their data, and everything is available for download in a variety of formats. CONCLUSION: The open-source metagenomics RAST service provides a new paradigm for the annotation and analysis of metagenomes. With built-in support for multiple data sources and a back end that houses abstract data types, the metagenomics RAST is stable, extensible, and freely available to all researchers. This service has removed one of the primary bottlenecks in metagenome sequence analysis – the availability of high-performance computing for annotating the data. http://metagenomics.nmpdr.org.
13 comentarios
Control de lectura 18
The metagenomic RAST server- a public resource for the automatic phylogenetic and functional analysis of metagenomes Meyer, F., Paarmann, D., D’Souza, M., Olson, R., Glass, E. M., Kubal, M., Paczian, T., et al. (2008).The metagenomics RAST server a public resource for the automatic phylogenetic and functional analysis of metagenomes. BMC bioinformatics, 9, 386. doi:10.1186/1471-2105-9-386
La secuenciación de genomas individuales ha quedado atrás al igual que sus limitaciones y sesgos. Hoy en día se puede obtener secuencias de genomas de todos los miembros de una comunidad (metagenómica). Pero ¿a dónde van a dar todos los datos de los metagenomas? Hay ya disponibles bases de datos con metagenomas disponibles para todo los usuarios, sin restricción alguna para tener acceso a la información. El servidor RAST es una opción. En este servidor se encuentran 500 metagenomas disponibles, es decir, ¡una gran cantidad de información! En este artículo se nos da una guía para familiarizarnos con el ambiente del servidor RAST, nos expone los beneficios que nos ofrece, la manera en la que podemos trabajar y obtener información de esta base de datos, así como la manera en que se puede llevar a cabo el análisis y la comparación de metagenomas.
Control de Lectura.
Nuevamente me encuentro con una definición de metagenómas (genomas que se han obtenido aleatoriamente de una comunidad) y a esta definición le agrego la reflexión de que el gran reto asociado estuvo relacionado, en principio con la generación de estas secuencias; ahora, el reto es cómo analizar toda esta información.
Una vez que se cuenta con las secuencias, el primes paso en el análisis es comparar esas secuencias con una base de datos de secuencias conocidas; posteriormente, se podrán hacer análisis subsecuentes en los que se hagan comparaciones filogenéticas, funcionales, metabólicas, etc.
En este artículo justamente se describe el desarrollo de un sistema abierto para procesar secuencias de datos metagenómicos y generar las comparaciones antes mencionadas, algo que es totalmente nuevo para mi.
Se trata de un programa de mucha utilidad, ya que es de acceso libre en la web, para todos los investigadores, sin ningún tipo de restricción.
Mas allá de la descripción de los componentes de este sistema (registro del usuario y manejo, tipo de datos, etc.), hay algunos aspectos poco conocidos por mi que me llaman la atención; por ejemplo, el hecho de que se requieren un conjunto de datos mínimo que deben ser colectados para considerar un metagénoma (Minimum Information about a Genome Sequence -MIGS) y por supuesto, el servidor RAST (Rapid Annotation using Subsystems Technology) es compatible con este dato.
¿Qué significa que este implementada en Perl? El sistema usa componentes de la red como SEED, NCBI BLAST, SQLite y Sun Grid Engine.
Los análisis principales que hace el sistema, incluyen un monitoreo para evaluar si el gen es un gen codificante, una reconstrucción filogenética, una evaluación y asignación funcional que generan una reconstrucción metabólica inicial de la muestra
Algo que caracteriza a RAST, es que posee varias herramientas de genómica comparativa. Lo que me pareció muy importante y útil es que las comparaciones se pueden hacer en muchos sentidos, es decir se pueden comparar áreas específicas del metabolismo, u otros subsistemas que se consideren de utilidad para el estudio. ¡Así, es posible saber si hay rutas metabólicas compartidas en diferentes muestras!
No obstante, los autores también señalan algunas debilidades del sistema: relacionados con el gran número de secuencias desconocidas, con el ritmo tan acelerado con el que se generan nuevas secuencias y por lo tanto se requieren nuevos algoritmos para incrementar la velocidad computacional y con el hecho de que la calidad de los datos tiene una influencia sobre las reconstrucciones metabólicas.
Hasta 2008 se contaban con aproximadamente 1000 genomas microbianos secuenciados y la metagenómica había arrojado un gran número de información también. Dado que el paso siguiente una vez que se tiene la o las secuencias es compararlas con las bases conocidas este artículo se centra en proponer un servidor nuevo y de acceso libre de alto rendimiento que facilita el análisis.
El servidor RAST está construido como una tubería con múltiples entradas, fue desarrollado específicamente para el manejo de datos de pirosecuenciación pero puede usarse cualquier tipo de secuencia y está diseñado para abordar los principales puntos críticos al hacer el análisis de los datos que se obtienen como la normalización, la asignación de funciones y distribución taxonómica entre otros. La gran ventaja de esta plataforma, además de que es gratuita, es que su diseño modular permite la adición de nuevos pasos en el análisis o más datos con lo que se hace más robusta.
En el 2008, Meyer y colaboradores lanzaron un servidor gratuito para anotar y analizar secuencias metagenomícas, comparandolas con bases de datos de proteínas y nucleótidos de manera automatizada. El servidor se denominó MG-RAST (Metagenomes Rapid Annotation using Subsystems Technology), y apartir de su lanzamiento facilitó indudablemente el arduo trabajo de la anotación de metagenomas utilizando diferentes herramientas y posteriormente analizando e integrando los datos obtenidos, lo anterior se demuestra con el gran número de metagenomas con el que cuenta el servidor actualmente, 72,220, de los cuales 12,240 son públicos y disponibles. En este artículo los autores presentan al servidor MG-RAST, un servicio estable, extensible y disponible para todos los investigadores.Es un sistema basado en la estructura de SEED para genómica comparativa, en el cual los usuarios pueden subir las secuencias crudas en formato fasta y el servidor normaliza, procesa y resume las secuencias generadas automáticamente, posteriormente se generan búsquedas de BLASTX contra bases de datos INSDC (International Nucleotide Sequence Database Collaboration). En paralelo a las búsquedas, las secuencias también se comparan contra bases de datos accesorias, usando los algoritmos y criterios de selección apropiados. Posteriormente, las coincidencias en las bases de datos se utilizan para calcular los datos derivados. Se hace una reconstrucción filogenómica de la muestra, utilizando la información contenida en la base de datos SEED nr y las similaridades de la base de datos RNA ribosomal. A continuación se realizan clasificaciones funcionales, las cuales se convierten en el punto de entrada de reconstrucciones metabólicas,de manera que se pueden sugerir flujos metabólicos, reacciones enzimáticas etc. MG-RAST produce diferentes métodos para accesar a los datos, incluyendo reconstrucciones metabólicas y filogenéticas, además de permite la comparación de metabolismo y anotación de varios metagenomas. A pesar de las grandes ventajas que representa MG-RAST, se tiene que tomar en cuenta el gran problema que existe en el numero de secuencias que no se conocen en las bases de datos, por lo que se tiene que hacer uso de herramientas de predicción de genes y funciones para poder completar el anotado de las secuencias, es decir, MG-RAST, solo facilita una parte del proceso metagenómico (anotado), sin embargo se requerirá un esfuerzo mayor para generar una herramienta bioinformatica que permita integrar y analizar los datos de cada paso en el proceso metagenómico.
The metagenomics RAST server – a public resource for the automatic phylogenetic and functional analysis of metagenomes
Es un breve resumen de servidor mg-RAST, dispuesto para dominio público, que quiera analizar sus datos del metagenoma que secuencio. Da una breve explicación de cómo funciona y como puede utilizarse de manera general y básica. Está basado en un marco de trabajo para la comparación de genomas, los datos pueden subirse en formato Fasta, y las secuencias será procesadas y normalizadas para la generación de resúmenes automatizado. Principalmente acepta datos de pirosecuencias, pero tiene una amplia aceptación a diversos formatos. Los read pueden ser cargados sin ensamblarse o en forma de contigs, pero los contigs no deben exceder la longitud de 40 kb. Aparte debe de meterse la información de metadatos en MIGS, para poder correlacionar los parámetros junto con los resultados de comparación de metagenomas. Está compuesto de SEED, NCBI BLAST, SQLite. Los distintos pasos implementados provee una fuente de información flexible para procesar. Bases de datos permiten eficinetemente mapeo de secuencias en el metagenoma tanto para los organismos y funciones metabólicas permitiendo también que los usuarios cambien los parámetros para emparejar las secuencias. Una vez normalizados los datos, las secuencias son seleccionadas en PEGs via BLASTX contra la base de datos de SEED, y en paralelo las secuencias son comparadas con las bases de datos accesorias (rDNA y GREENGENES). En el tercer paso los emparejamientos de las bases externas derivan datos, primeramente una reconstrucción filogenética, clasificación de los PEGs que con preyectados contra SEED FIGfams (familias de proteínas generadas por asociación para la interpretación de genomas) y otros subsistemas. Mientras que la asignación funcional inicia la reconstrucción metabólica, en estos pasos el usuario puede cambiar algunos parámetros para ajustar las construcciones. Todas estas herramientas son juntadas para comparar unos metagenomas contra otros, que están depositados en el SEED, la comparación resulta en mapas heat y mapas taxonómicos en grafico heat, dando un resumen de comparación entre los metagenomas. Mientras que otro subsistema identifica los pegs en cada metagenoma y los conecta para un subsistema de similitud a nivel de proteína. Con esta herramientas y si el metagenoma comprende pocos organismos dominantes, podría predecirse muchas de las rutas. el utilizar secuencias ensambladas tiene sus desventajas cuando se compara los metagenomas o si se usan estadísticos para comparar la muestras, pues el proceso de ensamblaje pierde información de secuencia que es crítica para determinar diferencias entre las muestras. Por otro lado el ensamblaje tiende secuencias más largas y por lo tanto más exactitud en la asignación de función a genes. A pesar de los avances en las herramientas de secuenciación aún se necesitan mayores avances en los procesamientos de los datos para poder comprender los resultados arrojados por el metagenoma. Aquellas herramientas que puedan manjear secuencias desconocidas, predicciones en las regiones codificantes, que seguro serán implementadas dentro de las bases de información.
El artículo describe el servidor mg-RAST para el análisis de metagenomas. Una de sus características más importantes es que funciona para secuencias ensambladas y no ensambladas e incluye varias herramientas que permiten al usuario comparar sus datos contra los de otros metagenomas o genomas completos. Se pueden obtener heat maps taxonómicos que resaltan diferencias entre muestras a partir del método filogenético seleccionado por el usuario (16S o de resultados de BLAST, por ejemplo). El programa puede predecir construcciones metabólicas que se pueden comparar con cualquier otro metagenoma o genoma completo y el usuario puede ver qué subsistemas son compartidos e identificar más fácilmente elementos metabólicos en su muestra.
El primer paso que sigue el programa es normalizar para eliminar secuencias duplicadas de datos 454, ya que estas son un artefacto del método de secuenciación. Después se buscan genes potencialmente codificadores a través de BLASTX contra una base de datos no redundante (SEED); el programa usa un e-value de corte de 0.01 para elegir estos genes. Al mismo tiempo los datos se comparan con todas las bases de datos accesorias según elija el usuario. La creación de este programa permite la anotación eficiente de los datos, es decir que ha logrado sobrepasar uno de los principales obstáculos en el análisis de información metagenómica.
La Metagenómica es una herramienta muy potente que ha generado una cantidad muy importante sobre la diversidad y funcionamiento de las comunidades microbianas, la cual ha ido aumentando su aplicación en diferentes áreas de estudio de la Microbiología. Este avance está asociado a las facilidades que ha proporcionado los avances y disminución en costos de las técnicas de secuenciación; sin embargo, una de las limitantes ante este incremento de información es el cómo se va a analizar, ya que no hay un balance entre la cantidad de información generada y el desarrollo de programas especializados que permita su análisis proporcionalmente.
Los programas que se han desarrollado hasta el momento siguen una serie de pasos de forma secuencial que permite su organización y análisis de la información generada por la genómica, pero no todos tienen la capacidad de poder interconectar la información que se genera de los diferentes equipos que se están usando en este tipo de análisis. Una propuesta para dichos análisis la ofrece el servidor RAST, el cual tiene una mayor flexibilidad en cuanto a los formatos que pueden ser cargados para su análisis. Por otro lado, le da seguridad al usuario de la información que esta introduciendo y le da los permisos necesarios para liberar la información cuando lo considere pertinente. Así también, ofrece una capacidad de utilizar diferentes programas de análisis y de comparación de datos. Y algo que para mucha gente que podría no estar inmersa en el mundo de la programación, es que ofrece una interfase amigable para los usuarios; el cual, con los conocimientos básicos de los diferentes servicio que ofrece puede iniciarse en al análisis de datos. Sin embargo, no todo es tan fácil, ya que se requiere de mucho cuidado para evitar análisis que podrían generar resultados erróneos o falsos negativos. La capacidad que tiene de poder hacer análisis comparativos entre otros metagénomas ha facilitado la descripción taxonómica y funcional de las comunidades microbianas.
A pesar de todos estos servicios que ofrece este servidor, aún existen ciertas limitantes que se relacionan con el desarrollo de software con mayor potencialidad para analizar toda la información que se sigue generando. Pero es una alternativa que se ve que es bastante útil para poder tener un acercamiento importante y concreto sobre los datos que puedes generar con el uso de esta nueva herramienta de análisis microbiano.
El servidor RAST es una herramienta que tiene como objetivo facilitar el manejo de datos. Permite hacer inferencias filogenéticas y funcionales así como reconstrucciones metabólicas y anotaciones.
RAST recibe como archivo de entrada secuencias en fasta (los datos pueden estar ensamblados o no) y los metadatos asociados. Lo primero que hace es comparar con las secuencias conocidas. Los usuarios se registran y suben sus archivos con la seguridad de que solo ellos tienen acceso a sus datos, sin embargo sí existe la posibilidad de compartir la información con otras bases de datos. Este servidor normaliza las secuencias y las compara con otras bases de datos para buscar por ejemplo proteínas utilizando BLASTX, u otras bases de datos como Greengenes para la taxonomia. Estos datos son la base pues de aquí se parte para hacer la reconstrucción filogenética y la clasificación funcional. Es posible también comparar metagenomas y se recomienda que para este paso no se haga el ensamble primero pues se puede perder información.
Por lo que RAST es un nuevo sistema que pretende resolver el problema del manejo de datos en el análisis metagenomico, partiendo de la búsqueda de similitudes.
El objetivo del artículo es familiarizarnos con esta plataforma, el RAST server.
Conociendo los pasos implicados en el análisis de metagenomas y las aplicaciones de los diferentes recursos bioinformáticos disponnibles para cada caso particular, esta plataforma se presenta como una buena opción para, a través de un mismo portal, efectuar todo el proceso. Además, parece tener bastante flexibilidad tanto para el manejo de las secuencias (puede trabajarse con reads sin ensamblar o con contigs), uso de diferentes bases de datos desde la misma plataforma, modificación de parámetros para dar mayor o menor astringencia al analisis, etc. Además, parece se muy accesible y de fácil manejo.
Los parámetros básico definidos en la plataforma fueron determinados empíricamente que permite balancear la especificidad y fidelidad, así mismo, se basa en la información mínima de metada expuesto por el Genomic Standards Consotium para proporcionar la información asociada al metagenoma que se está trabajando (y compartiendo).
Por ejemplo, permite efectuar comparación de secuencias de genomas completos o de metagenomas para localizar posibles genes codificanes (con los criterios propios de cada base de datos pero usando esta plataforma), permitiendo tener acceso a la reconstrucción filogenética y clasificación funcional de los genes codificantes para dar una primera aproximación a la reconstrucción metabólica. Igualmente, permite efectuar genómica comparativa a nivel de proteínas.
La accesibilidad del formato en que se proporcionan los resultados también resulta bastante accesible. Y ya que el artículo es de 2008 vale la pena echar un vistazo a las actualizaciones que pudiera tener a la fecha.
En este artículo nos explican la utilidad del servidor RAST para anotar metagenomas, nos explican de manera puntual la forma en que los investigadores pueden subir los datos al servidor, los procesos de normalización para quitar secuencias repetidas, los softwares disponibles para hacer las comparaciones entre los diferentes metagenomas que tienen la base de datos, la disponibilidad con la que se cuenta, así mismo promueven el uso de esta base de datos para anotar los metagenomas que se van obteniendo, además de hacer hincapié en que estos servidores se irán mejorando con el avance en las tecnologías así como en el desarrollo de programas más eficientes.
En este artículo lo que se pretende es dar a conocer a la comunidad el desarrollo de un servidor, mg-RAST, enfocado en el análisis y anotación de datos metagenómicos.
A grandes rasgos la línea de flujo de este sistema de anotación consiste en un proceso de depuración posterior a la subida de datos, seguido por una búsqueda de potenciales genes codificantes. Una vez hecho esto aquellas secuencias que tuvieron un blanco en las bases de datos son utilizadas para realizar una reconstrucción filogenómica y realizar una clasificación funcional de los genes condificantes. Estas anotaciones posteriormente pueden ser empleadas para realizar análisis comparativos entre distintos metagenomas.
Creo que la mayor importancia de este artículo radica en que gracias a este sistema de anotación y análisis, uno de los principales problemas a los que se venían enfrentando aquellos grupos con proyectos metagenómicos, un método unificado de ensamble, clasificación y análisis, así como la disponibilidad de recursos informáticos, se ve en cierta parte solventado, sin embargo como los mismos autores hacen notar, muchas de las técnicas no están diseñadas para trabajar con metagenomas por lo que hay un decremento en cuanto a su funcionamiento, el cual puede ser en parte solucionado con un análisis no automatizado, con el cual si bien perdemos la facilidad de permitir que servidores realicen el trabajo solos, ganamos más certeza en cuanto a la calidad de nuestros datos.
Esta publicación se refiere a la descripción de un servidor público para trabajar con datos de metagenomas (MG-RAST) enfocado a la asignación de funciones y determinación taxonómica. Se apoya en bases de datos como SEED (FIGFams) y el RDP (GreenGeens, para RNAs). Es interesante que el sistema simplifica el proceso de análisis de los datos, mantenerlos en una cuenta donde se pueden administrar el acceso, aceptando distintas tecnologías de secuenciación (454 o sanger, en varios formatos), con estándares como el MIGS, y muy útil para visualizar las lecturas o el ensamblado, además puede visualizarse la distribución de las lecturas, hacer un análisis exploratorio estadístico de los datos y también es posible hacer búsquedas a las bases de datos, se pueden modificar parámetros importantes para cada uno de los distintos servidores en que se apoya de tal modo que es flexible en el análisis. En general, al parecer este sistema ayuda bastante en la anotación y reconstrucción o comparación de los metagenomas aunque sea enfocado en el metabolismo central y de patogénesis de organismos selectos.
Ya que en alguno de los pasos de la anotación de las secuencias dentro de un estudio metagenómico, se va a tener necesariamente que hacer una comparación con secuencias ya existentes, es conveniente que exista un servidor abierto al público donde haya una base de datos de secuencias para poder comparar. Una de éstas bases es RAST, (basado en SEED, que por lo que investigué es un protocolo open-source para análisis comparativos de genomas, lo que significa que muchas bases de datos lo usan) que posee alrededor de 500 metagenomas y tiene algoritmos que permiten usar los datos de distintas formas, como comparaciones metabólicas. Este artículo es la presentación de esta base de datos. Esta base de datos maneja varios tipos de éstos, como archivos FASTA o 454. Me parece excelente que esta base de datos tenga un control de calidad, pues otras bases de datos como GenBank de NCBI están llenas de secuencias artificiales. Este control de calidad involucra: 1) generar una identificación única para cada secuencia y remover duplicados; 2) Una comparación usando BLASTX, para encontrar sitios codificantes. 3) una vez en posesión de los datos de las comparaciones, se hace un análisis para realizar una reconstrucción filogenética. Me parece que por el hecho de que traten de hacer un consenso de bases de datos en un servidor unificado, que usa un protocolo previamente inventado de libre acceso, RAST tiene una ventaja sobre otras bases de datos. Esta tendencia integradora es precisamente lo que necesita la metagenómica para que su uso de pueda extender sin problemas, porque yo veo que hay muchísimas bases de datos, que cada una usa su propio sistema de búsqueda, y esto sólo trae confusión, mientras que RAST parece que quiere ir al contrario: hacer una base de datos única con protocolos sensatos, que sólo requiere registro al servicio y nos da información muy valiosa como comparaciones metabólicas y filogenéticas.
Los comentarios están cerrados.