Rescatando virus huérfanos a partir de datos metagenómicos.
Los virus son un componente fundamental de las comunidades microbianas y gracias a las técnicas de secuenciación masiva ha sido posible identificarlos en muestras ambientales. Sin embargo, detectar nuevos linajes víricos es problemático ya que no cuentan con secuencias homólogas en las bases de datos de anotación.
Con este problema en mente, Mauricio Barrientos y compañía idearon una estrategia para identificar nuevas familias víricas con base en secuencias “huérfanas” (ORFan), que son secuencias codificantes sin homólogos conocidos, a partir de secuencias DNA y RNA total de muestras de aspirados nasofaríngeos, suero, heces y líquido cefalorraquídeo. Se eliminaron todas las secuencias con homólogos en las bases de datos nr y nt del NCBI, quedando 402,288 secuencias que fueron agrupadas por identidad, alineadas y filtradas por tamaño de alineamiento y número de secuencias en cada grupo (cluster). Los 456 clusters obtenidos fueron evaluados por un modelo basado en sustituciones sinónimas y no sinónimas (KA/KS) para distinguir entre secuencias codificantes y no codificantes.
De esta manera se encontraron 32 familias ORFan y aunque algunas presentaron homólogos con metagenomas intestinales, marinos y de drenaje representan buenos candidatos para identificar nuevos linajes víricos. Para demostrar que estos clusters pertenecen a genomas desconocidos, se llevó a cabo una reacción de PCR de largo alcance inverso a partir del cluster 179a y se obtuvieron amplicones de 5kb. Estos amplicones se secuenciaron y ensamblaron para obtener finalmente un genoma vírico circular bautizado HFM (Human Fecal Microbiome). Aunque esta estrategia permitió detectar un nuevo genoma viral, los supuestos con los que se filtraron los clusters podrían no ser ciertos para todas las familias de proteínas. Se espera que al incrementar el tamaño de lectura secuenciada de muestras ambientales, la identificación de nuevos virus sea más sencilla.
Barrientos-Somarribas, M., Messina, D. N., Pou, C., Lysholm, F., Bjerkner, A., Allander, T., … & Sonnhammer, E. L. (2018). Discovering viral genomes in human metagenomic data by predicting unknown protein families. Scientific reports, 8(1), 28.