Organised genome dynamics in the Escherichia coli species results in highly diverse adaptive paths
1. Touchon, M., Hoede, C. & Tenaillon, O. Organised genome dynamics in the Escherichia coli species results in highly diverse adaptive paths. PLoS genetics (2009).at
Abstract
The Escherichia coli species represents one of the best-studied model organisms, but also encompasses a variety of commensal and pathogenic strains that diversify by high rates of genetic change. We uniformly (re-) annotated the genomes of 20 commensal and pathogenic E. coli strains and one strain of E. fergusonii (the closest E. coli related species), including seven that we sequenced to completion. Within the ,18,000 families of orthologous genes, we found ,2,000 common to all strains. Although recombination rates are much higher than mutation rates, we show, both theoretically and using phylogenetic inference, that this does not obscure the phylogenetic signal, which places the B2 phylogenetic group and one group D strain at the basal position. Based on this phylogeny, we inferred past evolutionary events of gain and loss of genes, identifying functional classes under opposite selection pressures. We found an important adaptive role for metabolism diversification within group B2 and Shigella strains, but identified few or no extraintestinal virulence-specific genes, which could render difficult the development of a vaccine against extraintestinal infections. Genome flux in E. coli is confined to a small number of conserved positions in the chromosome, which most often are not associated with integrases or tRNA genes. Core genes flanking some of these regions show higher rates of recombination, suggesting that a gene, once acquired by a strain, spreads within the species by homologous recombination at the flanking genes. Finally, the genome’s long-scale structure of recombination indicates lower recombination rates, but not higher mutation rates, at the terminus of replication. The ensuing effect of background selection and biased gene conversion may thus explain why this region is A+T-rich and shows high sequence divergence but low sequence polymorphism. Overall, despite a very high gene flow, genes co-exist in an organised genome.
6 comentarios
Los genomas de los organismos procariotes se caracterizan por tener un tamaño compactado, a comparación de los genomas de eucariontes, cuyos genomas son más grandes ya que contienen una gran cantidad de secuencias repetidas, duplicadas o de inserción, las cuales, no se encuentran en gran proporción en los genomas procariontes. Sin embargo, a pesar de la gran compactación de su genoma, los organismos procariontes muestran una gran diversidad metabólica, incluso cepas de la misma especie pueden ocupar diferentes nichos ecológicos. Uno podría pensar que cada cepa tiene genes específicos (obtenidos por transferencia horizontal o recombinación) que pueden conferir funciones adaptativas, permitiendo la exploración de nuevos nichos ecológicos y por lo tanto la ganancia o pérdida de genes podría modificar la organización del genoma. Es decir, las bacterias y arqueas tienen que optimizar y organizar su información genómica para poder sobrellevar la compactación. En el 2009, Touchon y colaboradores trataron de entender a dinamica de veinte genomas del grupo mejor caracterizado de bacterias entéricas , (gama proetobacteria; E.coli), con el fin de entender si el número de genes específicos varía entre cepas adaptadas a diferentes nichos, y si realmente la recombinación y la transferencia de genes puede modificar la organización de los genomas. Encontraron que los genes compartidos entre todas las cepas (core-genoma) son alrededor de 2000, lo cual representa casi la mitad de un genoma de E.coli, lo cual indica que no hay un flujo de genes específicos a pesar de tener nichos ecológicos distintos. Esto se confirma al observar que además de encontrarse los genes necesarios para vivir (replicación, traducción, transcripción, energía etc), también comparten genes involucrados en la biosíntesis de aminoácidos, nucleótidos, co-factores, y proteínas, y, en menor grado, metabolismo de DNA, ácidos grasos y fosfolípidos. En el análisis del pan-genoma reveló un pangenoma abierto, ademas de que encontraron muy pocos genes específicos de cepa, lo cual confirmaron al buscar genes genes de virulencia relacionadas con infecciones extraintestinales de las cepas patógenas y comensales, y no obtuvieron ningun indicio de genes específicos. Por lo anterior, los autores sugieren que las interacciones epistáticas pueden estar llevando a cabo un papel muy importante en la diversificación de estas especies, más que los genes específicos de cepa. Por otra parte, observaron un patrón muy interesante en los genomas analizados. Encontraron regiones o “hotspots” donde se localizan la ganancia y pedida de genes. Según los autores, estas regiones surgen por diferencias en las intensidades de selección, más que por efectos de integrasas o transposasas. Es decir, el conflicto entre la dinámica y organización del genoma, da lugar a los “hotspots” los cuales confinan lugares de alta inestabilidad. Al concluir, los autores dejan al aire muchas cosas, y no logran integrar todas las partes de su trabajo, sin embargo mencionan que la relación entre la frecuencia de conversión génica, el sesgo de la compactación del genoma y la selección, resaltan la íntima asociación entre la dinámica del genoma y la organización cromosomal.
Al ser E. coli uno de los organismos modelo más estudiados, contamos con una considerable y variada cantidad de información. En este trabajo lo que se hizo fue re anotar los genomas de 20 cepas de E. coli. De este análisis se encontró que aproximadamente 2000 familias de genes ortólogos son comunes entre todas las cepas. El flujo génico de E. coli se sabe que está confinado a un pequeño número de posiciones conservadas en el cromosoma. Por genética de poblaciones se han identificado cuatro grupos filogenéticos (A, B1, B2 y D); las cepas de estos grupos se diferencian por sus características fenotípicas como el uso de azúcares, perfiles de resistencia a antibióticos, etc., además que están asociados a nichos ecológicos particulares.
En lo que respecta al orden de los genes se encontró que la mayoría de genomas mantenía el mismo orden que E. coli K12, la cual se propone como ancestral. Posteriormente se identificaron tanto el core- como pangenoma, encontrándose un genoma core conformado por 1976 genes, mientras que el pangenoma contiene 17838. Algo que llama la atención de estos genomas, es que en el genoma core no se encontraron no se encontraron 40 genes que han sido descritos para la E. coli K12 como esenciales, aunque para 23 de estos se encontraron ortólogos en la mayoría de los genomas. Esto es en lo que respecta al genoma core, pero en promedio se encontró que aproximadamente el 62% de los genes está presenten al menos 18 genomas, por o cual los llaman genes persistentes, entre estos están genes con funciones conocidas, mientras que los llamados genes volátiles (26%) fueron aquellos que se encontraron en 4 o menos genomas, estos fueron principalmente genes de función desconocida o elementos como transposones y profagos.
Otro punto de interés fue analizar qué tanto influye la transferencia horizontal al momento de realizar la reconstrucción filogenética, encontrándose que a pesar del intercambio genético, la conversión génica no fue lo suficientemente fuerte para distorsionar la filogenia. Al hacer otra filogenia pero en esta ocasión concatenando los genes core, se obtuvo de igual manera una filogenia robusta. Al analizar la presencia/ausencia de genes específicos y un fenotipo particular, no se encontró ningún gen específico a las cepas comensales o patógenas, sin embargo para las patógenas extra intestinales se encontraron 16 genes específicos, lo cual nos está diciendo que la virulencia es un proceso multigénico, lo cual dificulta el desarrollo de vacunas.
Finalmente podemos decir que la plasticidad cromosomal en E. coli le permite una rápida adaptación a distintos ambientes, lo cual abre diversas vías evolutivas donde la ganancia y pérdida de genes está guiando junto con las distintas interacciones epistáticas, la evolución.
Organized Genome Dynamics in the Escherichia coli Species Results in Highly Diverse Adaptive Paths
La divergencia que hay dentro de una misma cepa ha sido un hallazgo que ha abierto a nuevos cuestionamientos del comportamiento de las “poblaciones” bacterianas. Aunado a esto muchas investigaciones realizadas en E. coli, específicamente en la cepa k-12, como organismo modelo no ha resuelto mucho sobre este tema pues ahora se han centrado en poder secuenciar más cepas de E.coli y junto con genética comparativa descubrir que es lo que las hace tan diferentes unas de otras en su estilo de vida pero que no es suficiente para separarlas en grupos separados. Tuchon y sus colaboradores, partiendo de la enorme información que hay referente a la cepa k-12 y en general a E.coli trataron de resolver varios cuestionamientos con genética comparativa de las cepas de E. coli que se han secuenciado.
Entre todos los genomas secuenciados algunos comensales y otros patogénicos, comparte características generales como el tamaño, aprox 5.2 MB, genes que codifican proteínas aprox. 5129 contenido de GC 50.8 % y las regiones asociadas a fagos se encuentran en lugares concentrados (regiones profagos). El genoma núcleo permanece estable en todas las cepas incluyendo la “modelo”. El genoma núcleo consta de 1976 genes, y el pangenoma 17 838 genes. Los genes sobre-representados son aquellos genes de función conocida y son los genes que más persisten. Por otro lado los genes con funciones desconocidas o aquellos que están involucrados con el DNA son transposables o elementos móviles y están sobre expresados en cepas específicas, estos genes pueden conferir funciones adaptativas para la conquista de nuevos nichos. En comparación contra S. dysenteriae (un organismo estrechamente relacionado con E. coli) mantiene una reducción de su genoma núcleo, en su pangenoma contribuye con largos números de IS que forman la cepa.
La THG es un evento necesario para implicar en las filogenias algunos genes, excluyendo el genoma núcleo. Los fragmentos del DNA pueden ser integrados dentro del cromosoma por recombinación homóloga y así permitir remplazamiento de alelos y dañar la señal filogenética. Así que midieron la tasa de recombinación en un nucleótido particular y la probabilidad de que ocurriera mutación en ese mismo nucleótido, de cada gen núcleo. Sin embargo, el intercambio genético bacteriano no siempre es análogo como en la mayoría de los eucariontes por lo que se asigna “conversión” al intercambio genético bacteriano. Las tasas de recombinación y mutación mostraron promedios similares, a partir de los genes que más diferían en tamaño siendo la proporción de 2.47 conversión a mutación. Teniendo una correlación negativa entre el radio de conversión a mutación y la longitud de los fragmentos. Los análisis filogenéticos mostraron que los primero en cortar de la cepa de E. coli fue el grupo B2 subgrupo D, mientras que el grupo A y B1 emergieron recientemente. Mientras más distancia filogenética había menos relación mantenían los repertorios génicos, siendo un mal marcador filogenético el número de ortólogos compartidos para cepas lejas. La mayoría de los genes entrantes son perdidos con rapidez, así la cepa ancestral pudo adquirir muchos genes volátiles que no mantenían un valor adaptativo que son purgados a menos que fueran re adquiridos de nuevo.
El factor de ganancia y perdida de genes es importante ya que genes involucrados en la especiación podrían haber desaparecidos en conjunto de linajes existentes. Los pocos genes específicos de clados son transferidos rápidamente y eliminados con la misma velocidad de la población. Sin embargo, genes con funciones conocidas tienen una baja probabilidad de ser perdidos pues tienen una alta probabilidad de ser perdidos. Estas funciones esenciales están en pequeños grupos como biosíntesis de metabolitos. Y las funciones reguladoras se encuentran en grandes grupos como desarrollo celular.
La perdida y ganancia de genes tiene una función importante entre la transición de comensalismo y patogenicidad. Las cepas que tienen una alta patogenicidad están agrupadas, es probable que el grado de patogenicidad sea debido a toxinas que requieres un esqueleto génico específico que mejore la expresión. Pruebas en el operon pap de las cepas que causan enfermedades gastrointestinales corroboraron que no hay genes específicos de virulencia sino más bien son procesos multigenicos a partir de muchas combinaciones y redundancias génicas. Por lo que la virulencia puede ser producto coincidental del comensalismo. Así la cepa B2 carece del operon hca que sugiere que la virulencia en meninges involucra compuestos aromáticos. La mayoría de los genomas que ganaban genes o perdían genes tomaban lugar en las mismas locaciones a través de los genomas (Hotspots). Algunas recombinaciones dentro de los hotspots pueden causar incongruencia filogenética como es en el caso del locus rfb y fim. Y también los genes que tienen que ver con la diversificación o patogenicidad ocasionan incongruencias. Dentro de las especies bacterianas el genoma nucleo evoluciona mediante la recombinación y la mutación, las múltiples combinaciones génicas hacen epistasis y forman diversidad fenotípica.
Puesto que se aprecia una gran diversidad entre las cepas de E. coli, que además cuenta con variedades patógenas del ser humano y otras que son comensales inocuos, es posible que estas variaciones se deban a la presión para adaptarse a este nicho y en el caso de las cepas patógenas, el constante cambio para seguir evadiendo el sistema inmune. Lo interesante es revelar la trayectoria evolutiva que ha seguido esta especie, la ganancia y pérdida de genes (estas cepas muestran un alto grado de intercambio genético) y las recombinaciones que pueden darse entre linajes para mantener su divergencia.
Dentro de los resultados que observaron con este estudio (analizando genomas de cepas de E. coli patógenas y cepas comensales, así como cepas de Shigella y E. fergusonii para referencia comparativa), está el hecho de que el orden de los genes se mantiene en buena medida entre las cepas, siendo S. dysenteriae el genoma que presenta mayor cantidad de rearreglos y alto número de elementos de inserción.
Del estudio de la evolución del repertorio de genes, se logró apreciar el alcance del genoma core y del pangenoma (el cual, al parecer, seguirá aumentando conforme se adicionen muestras al análisis). Así, algunas funciones fundamentales pueden estudiarse con una cepa modelo pero ninguna de ellas puede ser considerada, por sí sola, como representativa de la especie. Así también, no se detectan genes u operones que sean ubicuos en E. coli y que sean únicos de la especie, aunque se aprecia que hay genes persistentes en la mayoría de los genomas y algunos, denominados genes volátiles, que están en unos pocos genomas (están sobrerrepresentados, su función es desconocida o son “selfish DNA”) y que parecen ser cepa específicos y que parecen conferir alguna función adaptativa.
De la estimación de la recombinación en los genomas y el cómo ésta afecta la reconstrucción filogenética, a pesar las conversiones y adquisición de genes, la filogenia no queda obstaculizada y se pueden generar árboles con topología robusta a partir de las secuencias. Se identificaron genes inespecíficos por clado, la mayor parte de genes que no forman parte del genoma core; algunos pocos genes clade-inespecíficos. Se observó que la adquisición resiente está asociada a profagos, aunque en Shigella la adquisición por elementos transposables es predominante. Así mismo, no se detectaron genes que sean específicos para cepas patógenas o comensales, parece que la virulencia es un proceso multifactorial resultado de la combinación de la interacción de varios genes (combinaciones y redundancias). Además, se observó que existen puntos calientes de integración, en los genomas se encuentran sitios (en los mismos puntos) con diferencias en la información genética. Esta formación de parches de segmentos (que forman módulos de genes) parece indicar eventos de integración múltiple o recombinación frecuente entre elementos de integración.
El genoma core parece estar evolucionando tanto por mutaciones y recombinaciones de forma continua, igualmente, el resto del genoma también está sujeto a transferencia horizontal de genes (frecuente en E. coli) y con lleva un periodo corto de residencia pues una vez introducidos los nuevos genes pueden dispersarse por recombinación homóloga. A pesar de la gran dinámica de estas modificaciones, el genoma mantiene su organización (que se aprecia en mantener el orden de los genes en casi todas las cepas estudiadas), lo cual también ha dado paso a la generación de hotspots tan bien ubicados. Así, E. coli muestra gran plasticidad cromosomal y parece seguir rutas evolutivas tanto paralelas como específicas, aunque se mantiene la hegemonía en la especie (no permite encontrar genes claves, posibles blancos terapéuticos, que diferencien cepas patógenas de comensales). Así, la combinación de múltiples genes y las interacciones epistáticas contribuyen a la diversificación fenotípica.
Atendiendo a la pregunta de si la recombinación puede enmascarar la señal filogenética vertical de las especies, en este artículo se analizaron cepas de E. coli, que a pesar de ser probablemente el organismo más conocido del mundo, tiene una enorme variedad de variantes y subpoblaciones que se agrupan bajo el mismo nombre en el mundo, relacionadas con diferentes fenotipos como fenotipos patogénicos. Incluso, por su afinidad en estas características, Shigella debería ser en realidad agrupada como una especie de E. coli. Es decir, es notable que la bacteria más conocida tenga tal variación que no haya consenso en cuanto a sus relaciones filogenéticas. Para esto se hizo un análisis concienzudo del genoma (con todo y plásmidos) de 20 cepas (entre 14 ya secuenciadas previamente y 7 originales hechas expresamente para el trabajo que se reporta en el artículo), para re-anotar sus genes y esclarecer muchas de sus relaciones de una vez por todas. (En las tabla 1 y 2 se resumen las características más importantes de estas cepas y las características generales del genoma de las 6 variedades secuenciadas para el estudio). Me llama la atención que los cambios de orden de los genes adentro del genoma son escasos (sólo 3 mostraron uno o dos rearreglos) y que la mayor variabilidad de dentro de los bloques de sintenia que se comparten entre especies corresponde a las variedades patogénicas de Shigella. Esto lleva a preguntarse si la capacidad de hacer rearreglos cromosómicos puede optimizar procesos moleculares relacionados con la variabilidad necesaria para ser patogénico y adaptarse a ambientes cambiantes. Me parece impresionante también la cantidad de genes del genoma núcleo (1976) comparada con la cantidad de genes del pan-genoma (¡17 838 genes!). Una prueba de la tasa de mutación contra la tasa de recombinación favorece a esta última como la fuente de los cambios, aunque de todos modos este valor no resulta lo suficientemente fuerte como para enmascarar la señal filogenética. Está fue robusta y hay asociaciones marcadas, como el parentesco cercano de las variedades de Shigella secuenciadas. Otro de los resultados notables es la existencia de hotspots de diversidad genética, en donde parecen estar la mayoría de las inserciones y deleciones (figura 8). Se proponen como explicaciones que la presencia de sitios de inserción ya neutrales podría promover más inserciones subsecuentes (pues baja la probabilidad de que se le pegue a una secuencia importante cualquier nuevo elemento que llegue a insertarse cerca) y la posible presencia de dominios que sean más susceptibles a las integrasas virales, ninguna explicación se fundamenta 100% pero me parecen excelentes hipótesis. La tasa de recombinación es heterogénea a lo largo de los genomas (estandarizados para hacer esta comparación). En conclusión, es indudable que hay una alta tasa de recombinación en E. coli, pese a que de todos modos se demostró que es posible obtener una filogenia robusta. Mi mejor explicación sería invocar la enorme variedad de ambientes humanos que hemos creado actualmente como especie y correlacionar esta variedad con la variedad genómica de esta bacteria, es decir, esta situación no es natural y quizá no refleje la situación de bacterias que son menos cosmopolitas y no están adaptadas a tan distintos ambientes; sin embargo sigue siendo notable que este ejemplo representa la enorme variedad y plasticidad fenotípica que puede haber dentro de una especie.
Se secuencian 7 genomas de Escherichia coli y se reanotan otros 20 genomas de la misma especie. Las cepas secuenciadas son IAI1, 55989, UMN026, IAI39, S88, ED1A y E. fergusonii como grupo externo que es la especie más cercana. En la comparación se determinó un núcleo de pangenoma de aproximadamente 2000 genes ortólogos. Se detectó recombinación por arriba de la tasa de mutación lo que sugiere un flujo génico importante dentro de la especie y en sitios localizados pero esto no afecta la reconstrucción filogenética (proporción r/m de 1 a 10) lo que significa topologías robustas, se identificó al grupo B2 como basal junto con una cepa del grupo D (IAI39). Todos los genomas secuenciados resultan ser de mayor tamaño aproximadamente de 5 Mbp, con respecto a la K-12 MG1655, siendo el más grande ED1A pero el menos denso en cuanto a secuencias codificantes, uno de los de mayor porcentaje de secuencias hipotéticas conservadas y el de mayor pseudogenes. Resulta interesante que de acuerdo al análisis del pangenoma el número de nuevos genes descubiertos para la especie continúa y no se ha alcanzado una meseta, de igual forma sucede con los genes que no tienen una homología clara (<80% de similitud), por lo que aún no conocemos todo el pangenoma potencial. Con los genes del núcleo (1878) se construyó la filogenia de los 20 genomas de E. coli y cepas de Shigella y se infirió la dinámica de adquisición y pérdida de genes a partir del genoma ancestral con 4043 genes, siendo el más grande de aproximadamente 5388 genes, lo que habla de genes que se pierden y ganan y que no necesariamente se conservan en las cepas actuales. Se identifican también los genes clado-específicos (y presentes en sus descendientes) estudiándose si estos pueden estar relacionados a fenotipos específicos, pero en general no es así. Se documentó el número de eventos de inserciones y deleciones en las ramas del árbol (máxima verosimilitud) con un promedio de 3 o 4 genes contenidos en los fragmentos indels. Para los fragmentos grandes de más de 10 genes involucrados existe un sesgo a favor de las inserciones sobre las deleciones. Finalmente, se identifican y comparó la posición de los sitios de inserción y deleción con respecto al número de genes involucrados en cada evento a lo largo del cromosoma ancestral. Lo que da una visión de las regiones más susceptibles a la recombinación desde un enfoque histórico y centrado en los genes del genoma núcleo. Y en particular con la región pheV tRNA se compararon módulos de genes homólgos y su sintenia; resulta que distinta información genética se localiza en un mismo sitio hipermutante (hotspot) en distintos genomas y genera una estructura en parches. En conclusión se analiza la dinámica evolutiva de la especie a partir de la estructura de los genomas disponibls y las señales de recombinación.
Los comentarios están cerrados.