Rescatando virus huérfanos a partir de datos metagenómicos.

Rescatando virus huérfanos a partir de datos metagenómicos.

Los virus son un componente fundamental de las comunidades microbianas y gracias a las técnicas de secuenciación masiva ha sido posible identificarlos en muestras ambientales. Sin embargo, detectar nuevos linajes víricos es problemático ya que no cuentan con secuencias homólogas en las bases de datos de anotación.

Con este problema en mente, Mauricio Barrientos y compañía idearon una estrategia para identificar nuevas familias víricas con base en secuencias “huérfanas” (ORFan), que son secuencias codificantes sin homólogos conocidos, a partir de secuencias DNA y RNA total de muestras de aspirados nasofaríngeos, suero, heces y líquido cefalorraquídeo. Se eliminaron todas las secuencias con homólogos en las bases de datos nr y nt del NCBI, quedando 402,288 secuencias que fueron agrupadas por identidad, alineadas y filtradas por tamaño de alineamiento y número de secuencias en cada grupo (cluster). Los 456 clusters obtenidos fueron evaluados por un modelo basado en sustituciones sinónimas y no sinónimas (KA/KS) para distinguir entre secuencias codificantes y no codificantes.

De esta manera se encontraron 32 familias ORFan y aunque algunas presentaron homólogos con metagenomas intestinales, marinos y de drenaje representan buenos candidatos para identificar nuevos linajes víricos. Para demostrar que estos clusters pertenecen a genomas desconocidos, se llevó a cabo una reacción de PCR de largo alcance inverso a partir del cluster 179a y se obtuvieron amplicones de 5kb. Estos amplicones se secuenciaron y ensamblaron para obtener finalmente un genoma vírico circular bautizado HFM (Human Fecal Microbiome). Aunque esta estrategia permitió detectar un nuevo genoma viral, los supuestos con los que se filtraron los clusters podrían no ser ciertos para todas las familias de proteínas. Se espera que al incrementar el tamaño de lectura secuenciada de muestras ambientales, la identificación de nuevos virus sea más sencilla.

(a) Diagram of the bacteriophage HFM genome. This circular fragment was amplified from fecal samples using primers designed based on cluster 179a. The genome contains 7 candidate ORFs, all of which are located in the same strand and cover ~93% of the genome. Annotation suggests viral provenance due to the presence viral-like protein motifs such as a phage capsid motif (cap) and a replication protein (rep). The protein family (cluster 179a) from which the primers were designed is highlighted in light blue in ORF 6. (b) Phylogenetic tree showing the position of bacteriophage HFM in relation to 54 clearly annotated Microviridae genomes from the public databases. Due to lack of homology, it was impossible to include more distantly related sequences. It is a maximum likelihood tree, calculated using RAxML with 1000 bootstraps.

 

Barrientos-Somarribas, M., Messina, D. N., Pou, C., Lysholm, F., Bjerkner, A., Allander, T., … & Sonnhammer, E. L. (2018). Discovering viral genomes in human metagenomic data by predicting unknown protein families. Scientific reports, 8(1), 28.