Clasificando lecturas metagenómicas con base en sus polipéptidos predichos con Kaiju

Clasificando lecturas metagenómicas con base en sus polipéptidos predichos con Kaiju

Una de las cuestiones más importantes en el análisis de datos metagenómicos es la inferencia de la composición de la comunidad microbiana, es decir las abundancias relativas de los organismos muestreados. Tradicionalmente, este se lleva a cabo alineando las lecturas o contigs con secuencias genómicas o de proteínas en bases de datos. Sin embargo, con el aumento tanto del tamaño de las bases de datos y como de los datos de secuenciación, es necesario desarrollar métodos eficientes.

Kaiju’s algorithm. First, a sequencing read is translated into the six possible reading frames and the resulting amino acid sequences are split into fragments at stop codons. Fragments are then sorted either by their length (MEM mode) or by their BLOSUM62 score (Greedy mode). This sorted list of fragments is then searched against the reference protein database using the backwards search algorithm on the BWT. While MEM mode only allows exact matches, Greedy mode extends matches at their left end by allowing substitutions. Once the remaining fragments in the list are shorter than the best match obtained so far (MEM) or cannot achieve a better score (Greedy), the search stops and the taxon identifier of the corresponding database sequence is retrieved.

Kaiju traduce cada lectura metagenómica en los seis marcos de lectura y busca coincidencias exactas máximas (CEM) de aminoácidos en una base de datos de proteínas anotadas de genomas de referencia microbianos. Si se encontraron dos coincidencias de la misma calidad para dos genomas distintos, se arroja el último ancestro común más bajo. Para llevar a cabo estas búsquedas a gran velocidad, la base de datos de proteínas se somete a la compresión de Burrows-Wheeler, que permite la búsqueda de cadenas de caracteres idénticas en tiempo proporcional al tamaño de la cadena problema. Kaiju tiene dos formas de trabajar: 1) la estrategia exacta, que reporta el CEM más largo y 2) la estrategia codiciosa, que reporta el alineamiento con mayor puntaje con base en la matriz BLOSUM62 con un número máximo de discordancias definido.

Average sensitivity and precision. For each of the five types of reads, sensitivity and precision were averaged over all 882 measured genomes in the benchmark, showing the overall performance of each program.

Posteriormente, los autores compararon Kaiju con Kraken y Clark, con lecturas metagenómicas simuladas de secuenciadores roche 454 e illumina de distintos tamaños y configuraciones. Encontraron que su algoritmo presentó la mayor sensibilidad seguido de cerca por Kraken, y aunque Clark tuvo la mayor precisión, esta fue muy parecida a la de los otros dos algoritmos. Además encontraron que la sensibilidad de Kaiju aumentó al usar la estrategia codiciosa, que superó a los otros dos algoritmos incluso con las lecturas pareadas de 250 nt, que representan los datos más fáciles de analizar. Al analizar metagenomas reales, encontraron que la estrategia exacta de Kaiju encuentra entre 13 y 48 por ciento más lecturas que Kraken, valores que aumentaron al usar la estrategia codiciosa. El porcentaje de lecturas clasificadas por ambas estrategias varió entre 3 y 42, mientras que si se unen los resultados de ambos algoritmos se pudo clasificar entre el 25 y el 73 por ciento de las lecturas. Como se esperaba, las muestras ambientales de suelo y agua de mar fueron las más difíciles de clasificar.

Classification of real metagenomes. Percentage of classified reads in 10 real metagenomes for Kaiju MEM (m=12) and Greedy-5 (s=70), as well as Kraken (k=31). The Merged column shows the percentage of reads that are classified by at least one of Greedy-5 or Kraken. The Venn-Bar-diagram visualizes the percentage of reads that are classified either only by Kraken (blue), Greedy-5 (orange) or both (yellow). Grey bars in the human and cat samples denote the percentage of reads mapped to the respective host genomes.

Usando la misma base de datos y métricas se encontró que Kraken tiene 5% más sensibilidad y precisión que Kaiju al asignar géneros en lecturas con longitud media de 92 nt producidos por HiSeq, mientras que la diferencia se reduce a 0.7% y 1.% a nivel de phylum. Esto es producto de que al obtenerse péptidos más cortos, estos solo se pueden asignar a un ancestro común más bajo que género. Por otro lado, al analizar datos con longitud de lectura media de 156 nt generados por MiSeq, Kaiju presentó 8% más sensibilidad y 1% más precisión que Kraken. Al comparar tiempo de ejecución, la estrategia exacta de Kaiju fue la más rápida, seguida de la estrategia codiciosa con una discordancia o de Kraken con las lecturas de 100 nt. En cuanto a memoria, Kaiju resultó ser más eficiente al tener un pico de 5.6 GB, mientras que Kraken y Clark tuvieron 72 GB y 78 GB respectivamente en la clasificación. Este programa representa una alternativa veloz y sensible para clasificar secuencias metagenómicas e incluso anotar con información funcional.

Menzel, Peter, Kim Lee Ng, and Anders Krogh. «Fast and sensitive taxonomic classification for metagenomics with Kaiju.» Nature communications 7 (2016): 11257.