Combinando buscadores de ortólogos con aprendizaje automático

Combinando buscadores de ortólogos con aprendizaje automático

Conocer las proteínas funcionalmente equivalentes entre dos organismos es un tema interesante tanto para la biología evolutiva como para la investigación biomédica, sin embargo esta no es una tarea trivial. Una estrategia relativamente robusta para comenzar, consiste en identificar los genes ortólogos (genes derivados de un ancestro a partir de un evento de especiación) con la menor divergencia (OMD). Existen diversos métodos para identificar este par de genes y hoy en día se cuenta con varias herramientas informáticas disponibles, las cuales se basan principalmente en distancia evolutiva, scores de alineamiento, agrupamiento de Markov y en comparación de árboles filogenéticos. Recientemente han surgido «meta herramientas» que combinan estos métodos para mejorar las predicciones. Sutphin y compañía reportan una nueva «meta-herramienta» llamada WORMHOLE, que consta de dos etapas de procesamiento. En la primera, cada uno de 17 algoritmos selectos ya publicados compara una lista de pares de posibles ortólogos y reporta si son candidatos OMD o no. Esto resulta en un vector binario (con ceros y unos) con 17 atributos, el cual, en la segunda etapa, se ingresa a una máquina de vectores de apoyo previamente entrenada que le asigna un peso a cada valor del vector, calcula la suma ponderada del mismo y toma la decisión final. La máquina de vectores de apoyo es un modelo matemático que asigna los pesos a cada vector, estos pesos se calculan previamente basándose en un set de datos de entrenamiento que consiste en ejemplos de pares de posibles OMD previamente etiquetados como positivos y negativos. Los autores compararon los resultados de WORMHOLE contra cada uno de los 17 algoritmos, mejores hits recíprocos de una búsqueda de BLASTp y una votación simple de los 17 algoritmos juntos. Prácticamente en todos los casos el mejor desempeño lo tuvo WORMHOLE y en segundo lugar la votación simple. Comparando ortólogos de distintas especies, los autores encontraron que a mayor divergencia entre los taxa usados para entrenar entrenar el modelo, mejora la precisión y la recuperación de WORMHOLE. Otra observación importante es que se encontró correlación entre varios pesos asignados, lo cual habla de redundancia en la información arrojada por ciertos algoritmos, lo cual genera problemas al utilizar la votación simple. Por otro lado, WORMHOLE fue capaz de identificar pares de OMDs positivos que fueron etiquetados como negativos en el set de entrenamiento y viceversa; esto fue confirmado por patrones de mejores hits recíprocos de BlASTp y menor distancia evolutiva. El método demostró ser consistente con bases de datos de ortólogos funcionales, siendo más informativo al analizar secuencias divergentes. Es posible extender el algoritmo con cualquier indicador de similitud funcional o evolutiva. Esta herramienta está disponible en la dirección url wormhole.jax.org aunque solo se encuentra disponible para algunas especies (bien curadas) de animales. Este algoritmo de aprendizaje profundo (dos etapas) nos revela el poder del aprendizaje automático para integrar información biológica y facilitar el análisis de grandes cantidades de información.

(A) First-order features of gene pairs (e.g. sequence comparison, phylogenetic history, and functional interaction) are used by Layer 1 algorithms (B) to generate candidate LDO (cLDO) predictions, which are considered second order features (C). The second-order features are used by the WORMHOLE Layer 2 methods (voting or SVMs) (D) to select high-confidence LDOs and filter out erroneous predictions.

(A) First-order features of gene pairs (e.g. sequence comparison, phylogenetic history, and functional interaction) are used by Layer 1 algorithms (B) to generate candidate LDO (cLDO) predictions, which are considered second order features (C). The second-order features are used by the WORMHOLE Layer 2 methods (voting or SVMs) (D) to select high-confidence LDOs and filter out erroneous predictions.

Sutphin GL, Mahoney JM, Sheppard K, Walton DO, Korstanje R (2016) WORMHOLE: Novel Least Diverged Ortholog Prediction through Machine Learning. PLoS Comput Biol 12(11): e1005182. doi:10.1371/journal.pcbi.1005182