Los sesgos de anotación en 27,000 genomas bacterianos
El conocimiento que tenemos de las proteínas bacterianas provienen de un conjunto reducido de especias bacterianas del cual sobresalen Bacillus subtilis y Escherichia coli. Con la caída en los costos de secuenciación el número de genomas bacterianos disponibles en bases de datos ha crecido de manera abrupta y gran parte de la información que se extrae de estos nuevos genomas se extrapola a partir de los genomas de las pocas bacterias bien estudiadas. Como consecuencia, muchas proteínas contenidas en los nuevos genomas carecen de anotación o bien estas anotaciones se limitan a señalar que se trata de proteínas hipotéticas o hipotéticas conservadas. Sin embargo, hasta ahora no estaba claro el porcentaje esperado de proteínas sin anotar en un genoma cualquiera o si las características de este genoma modificaran este porcentaje. Para tener una estimación Briallen Lobb y compañía descargaron 27,000 genomas bacterianos de la base de datos de taxonomía genómica (GTDB) y los reanalizaron con el fin de poder comparar las anotaciones de sus proteínas predichas.
Encontraron que el porcentaje de proteínas anotadas tuvo un rango del 14 al 98% con un promedio de 52% al usar bases de datos de proteínas completas como KEGG. Cuando anotaron con base en dominios conservados, la media aumento a 74%. Además encontraron que la mayor parte de las proteínas que carecieron de anotación eran proteínas pequeñas. Al evaluar sus resultados a lo largo de la filogenia de la GTDB observaron que el phylum con el porcentaje promedio de proteínas no anotadas fue Patescibacteria que está compuesto por bacterias de genomas pequeños. Por otro lado, grupos mejor estudiados como Proteobacteria y Firmicutes tuvieron porcentajes de proteínas no anotadas alrededor del 40% en promedio.
Al evaluar los posibles sesgos en anotación dados por el tamaño del genoma, observaron que los genomas más grandes tienden a tener un mayor porcentaje de proteínas no anotadas. Esto no siempre fue cierto, por ejemplo, los Mycoplasmatales tienen genomas pequeños pero tienen una proporción relativamente baja de marcos de lectura (CDSs) anotados.
Para conocer el impacto que pudiera tener el sesgo de investigación sobre algunos organismos en la proporción de proteínas anotadas, los autores buscaron publicaciones en la base de datos PubMed con títulos y abstracts que tuvieran el nombre de los géneros de los organismos cuyos genomas estuviesen representados en su investigación. Como se esperaba, vieron que géneros mencionados frecuentemente tuvieron un porcentaje alto de CDSs anotados como Staphylococcus y Pseudomonas. De hecho, estos genomas «arrastran» otros genomas emparentados a tener porcentajes de anotación parecidos ya que comparten buena parte de sus genomas. Asimismo, genomas publicados antes de 2003 también tuvieron un porcentaje relativamente alto de proteínas anotadas.
Que algunos linajes como Patescibacteria tuvieran porcentajes de anotación bajos puede significar que sus proteínas se encuentran fuera de los límites de identificación de homólogos de las herramientas modernas o bien que su potencial metabólico es verdaderamente novedoso. Finalmente mencionan la cruda realidad de que la única forma de tener evidencias de las funciones de esta materia oscura de proteínas es a través de la caracterización experimental. Este trabajo nos ayuda a entender por qué gran parte de la diversidad genética que encontramos en la naturaleza carece de homólogos en las bases de datos.
Lobb, B., Tremblay, B. J. M., Moreno-Hagelsieb, G., & Doxey, A. C. (2020). An assessment of genome annotation coverage across the bacterial tree of life. Microbial Genomics, 6(3).