Filtrado de secuencias homólogas falsas positivas por medio de aprendizaje automático supervisado
Dado que los métodos heurísticos de agrupamiento de secuencias homólogas sobreestiman el número de relaciones de homología, los autores proponen una estrategia para filtrar alineamientos múltiples de secuencias de aminoácidos putativamente homólogas. Se generó un set de datos de alineamientos etiquetados como “homólogos” y “no homólogos” y a cada uno de estos se les tomaron medidas como el tamaño del alineamiento, el número de gaps, la composición de aminoácidos, entre otras. Varios algoritmos de aprendizaje automático fueron alimentados con estos datos; posteriormente, los modelos creados fueron puestos a prueba. Se encontró que el algoritmo compuesto con regresión logística fue el más exacto, mientras que las medidas más informativas fueron el número de gaps y la composición de aminoácidos. Finalmente se usaron estos modelos para evaluar un set de datos experimental, del cual se filtraron un gran número de alineamientos falsos positivos.
Fujimoto, M. S., Suvorov, A., Jensen, N. O., Clement, M. J., & Bybee, S. M. (2016). Detecting false positive sequence homology: a machine learning approach. BMC Bioinformatics, 17(1), 1.