Posgrado: Modelos de Markov, control de lectura

Posgrado: Modelos de Markov, control de lectura

Hay que leer este par de artículos para el martes:

What is a hidden Markov model?

Nature Biotechnology 22, 1315 – 1316 (2004)
doi:10.1038/nbt1004-1315

http://www.nature.com/nbt/journal/v22/n10/pdf/nbt1004-1315.pdf

A.L. Delcher, K.A. Bratke, E.C. Powers, and S.L. Salzberg. Identifying bacterial genes and endosymbiont DNA with Glimmer, Bioinformatics 23:6 (2007), 673-679.

http://ccb.jhu.edu/papers/glimmer3.pdf

3 comentarios

  1. Carlos Joaquín Pavón Vázquez dice:

    El refinamiento de los algoritmos para búsqueda y anotación de genes son esenciales para describir un genoma. Algunas de las preguntas más relevantes que se pueden contestar con un genoma dependen de la precisión de estos algoritmos: ¿dónde termina y dónde acaba este gen?, ¿que marco de lectura es el correcto?, ¿qué función podría tener?
    A mi parecer el gran problema con el que se enfrentan los algoritmos es la identificación de homología al comparar con bases de datos. «Que tanto es tantito» parecido para decir que hay homología y que la función debe ser parecida no es una pregunta fácil de responder. En este caso al momento de anotar creo que sería posible tomar prestada una idea de la optimización del alineamiento. Wheeler y colaboradores sugieren que para crear un alineamiento óptimo en secuencias muy divergentes lo mejor es construir un árbol de máxima parsimonia con los posibles alineamientos, considerando como el mejor alineamiento aquel que produzca el árbol más corto. Es posible utilizar este principio de retroalimentación no solo en el alineamiento sino en la anotación e identificación de ORFs. Podría construirse un modelo de la proteína inferida con nuestro marco de lectura y probar similaridad estructural y funcional con las proteínas codificadas por el gen de la base de datos que consideramos homólogo. Podría irse refinando la búsqueda hasta lograr el máximo parecido posible con la secuencia problema. Este método de búsqueda consumiría mucho tiempo, pero creo que sería más preciso y confiable.

  2. Guillermo Sánchez de la Vega dice:

    ¿Qué es un modelo oculto de Markov?

    Los fenómenos naturales emiten señales o tienen propiedades observables con características estadísticas que pueden variar con el tiempo. Estas señales pueden ser discretas, puras o estocásticas entre otras, sin embargo existe un problema para modelar dichos fenómenos, debido a que deben permitir analizar el fenómeno sin necesidad de ser observado directamente. Asimismo deben tener una representación adecuada, buena capacidad de reconocimiento y predicción. Los modelos ocultos de Markov (HMM) derivados de las cadenas de Markov, pueden ser útiles para el análisis de secuencias debido a que generan modelos probabilísticos, ya que proporcionan un conjunto de herramientas conceptuales para la construcción de modelos complejos con sólo dibujar una imagen intuitiva.

    Estos modelos forman parte de una gran cantidad de programas con diferentes funciones. Algunas de sus limitaciones pueden ser que supone que las observaciones sucesivas son independientes, como el ejemplo descrito en artículo sobre la estructura secundaria de RNA.

    Identificando genes bacterianos y DNA de endosimbiontes con Glimmer (Delcher et al 2007)

    Los genomas de bacterias y virus son muy particulares debido a su tamaño, por lo que los programas utilizados para buscar sus genes se basan en que se identifique el verdadero marco de lectura del gene que corresponde al organismo, por lo que la precisión de los programas es más elevada que en los correspondientes a otros organismos.

    El articulo detalla las mejoras y adelantos en el programa Glimmer 3.0, tanto para identificar regiones codificantes y donde inician los codones. Todo ello en respuesta a los problemas que existen cuando se analizan genomas de bacterias y se mezcla con DNA de bacterias endosimbiontes de la especie en estudio. Glimmer es un programa para la búsqueda de genes en el ADN microbiano, especialmente para genomas de bacterias, arqueas, y virus. Glimmer utiliza los modelos de Markov interpolados (IMMS) para identificar las regiones codificantes y distinguirlos de ADN no codificante.

    Entre las mejoras que se buscaban estaba reducir los falsos positivos sin reducir la sensibilidad del programa al predecir genes. Se usaron diferentes algoritmos para mejorar la predicción de genes y nucleótidos, buscando reducir el solapamiento de predicciones. Los autores resaltan las mejoras en relación a versiones anteriores del programa al predecir los sitios de inicio y al separar secuencias de diferentes genomas, lo cual repercute en un mejor ensamble de las secuencias.

  3. Adriana Uscanga Castillo dice:

    Los modelos de Markov se utilizan para encontrar genes en secuencias de ADN asignándoles una probabilidad estadística. Los modelos escondidos de Markov o Hidden Markov models (HMMs) son un fundamento formal para hacer modelos probabilísticos de problemas de etiquetado de secuencias lineales. En donde la probabilidad de asignar a cada sitio depende del contexto, y cada uno tiene una probabilidad de emisión y una probabilidad de transición, generando una cadena de Markov, en donde el estado siguiente depende solamente del estado actual.
    En el programa Glimmer usan cadenas de Markov para identificar genes. Iniciando con el codon de término hacia el codon de inicio, el algoritmo va reconociendo todos los marcos de lectura, con la probabilidad de cada base condicionada al contexto y al valor del marco de lectura, siendo la suma logarítima de verosimilitud de las bases contenidas en el marco de lectura. En muchos casos los valores marcan un aumento marcado o pico en algún valor, correspondiendo, generalmente, al sitio correcto de inicio.
    La precisión en la que se pueden encontrar genes, depende de identificar cuál de los seis posibles marcos de lecutra contienen el gen. En este sentido, es importante notar que la medida de la sensibilidad depende de que estén bien anotados los genes.

Los comentarios están cerrados.