Predicción automatizada de funciones enzimáticas con base en el código EC
Los números de la Enzyme Commission (EC) representan un sistema ontológico que define y organiza las funciones enzimáticas en un lenguaje amigable tanto para humanos como para computadoras. Existen cuatro niveles en esta clasificación, el más general tiene 6 categorías: oxidorreductasas, transferasas, hidrolasas, liasas, isomerasas y ligasas. Los dos niveles siguientes representan subcategorías mientras que el más bajo, indica el sustrato de la enzima dada. La predicción automatizada de funciones enzimáticas es un problema común en bioinformática, principalmente por las dificultades que implica identificar funcionalmente a las proteínas en el laboratorio. Actualmente existen varias herramientas para predecir funciones enzimáticas por homología, propiedades fisicoquímicas, estructura primaria y estructura tridimensional, además métodos de aprendizaje automático como bosques aleatorios y redes neuronales se han propuesto para llevar a cabo esta tarea. En este trabajo, Dalkiran y compañía proponen ECPred, un clasificador de secuencias de proteínas que usa aprendizaje automático supervisado que incorpora 3 herramientas basadas en homología, extracción de subsecuencias y propiedades fisicoquímicas.
Los autores entrenaron modelos de clasificación por cada número EC, tanto positivos como negativos usando proteínas de la base de datos UniProtKB/Swiss-Prot y en las pruebas de validación, que en aprendizaje automático se hacen con un subconjunto de datos similares a los usados en el entrenamiento del modelo, obtuvieron resultados alentadores. Posteriormente, compararon su herramienta con otras estrategias de vanguardia para clasificar proteínas recientemente agregadas a UniProt y encontraron que en la mayoría de los casos ECPred tuvo el mejor desempeño, sobre todo cuando se tiene un número bajo de instancias de entrenamiento. Además ECPred resultó ser más eficiente que cada uno de los métodos que utiliza, lo cual revela la ganancia en usar una estrategia combinada. A continuación, los autores demostraron que su estrategia puede asignar funciones enzimáticas a proteínas que carecen de información de dominios de Pfam, lo cual requieren otros programas y es atribuible a la estrategia de añadir modelos negativos. Finalmente, los autores usaron un conjunto de datos truncos usados por una herramienta basada en la estructura tridimensional de las proteínas y los usaron para comparar ECPred con otros métodos de clasificación y encontraron que éste tuvo un buen desempeño. Esta herramienta podría resultar útil al analizar el potencial metabólico predicho de comunidades microbianas, sobre todo en el caso de proteínas que no tienen homólogos detectables en las bases de datos.
Dalkiran, Alperen, et al. «ECPred: a tool for the prediction of the enzymatic functions of protein sequences based on the EC nomenclature.» BMC bioinformatics 19.1 (2018): 334.