Clasificando lecturas metagenómicas con base en sus polipéptidos predichos con Kaiju
Una de las cuestiones más importantes en el análisis de datos metagenómicos es la inferencia de la composición de la comunidad microbiana, es decir las abundancias relativas de los organismos muestreados. Tradicionalmente, este se lleva a cabo alineando las lecturas o contigs con secuencias genómicas o de proteínas en bases de datos. Sin embargo, con el aumento tanto del tamaño de las bases de datos y como de los datos de secuenciación, es necesario desarrollar métodos eficientes.
Kaiju traduce cada lectura metagenómica en los seis marcos de lectura y busca coincidencias exactas máximas (CEM) de aminoácidos en una base de datos de proteínas anotadas de genomas de referencia microbianos. Si se encontraron dos coincidencias de la misma calidad para dos genomas distintos, se arroja el último ancestro común más bajo. Para llevar a cabo estas búsquedas a gran velocidad, la base de datos de proteínas se somete a la compresión de Burrows-Wheeler, que permite la búsqueda de cadenas de caracteres idénticas en tiempo proporcional al tamaño de la cadena problema. Kaiju tiene dos formas de trabajar: 1) la estrategia exacta, que reporta el CEM más largo y 2) la estrategia codiciosa, que reporta el alineamiento con mayor puntaje con base en la matriz BLOSUM62 con un número máximo de discordancias definido.
Posteriormente, los autores compararon Kaiju con Kraken y Clark, con lecturas metagenómicas simuladas de secuenciadores roche 454 e illumina de distintos tamaños y configuraciones. Encontraron que su algoritmo presentó la mayor sensibilidad seguido de cerca por Kraken, y aunque Clark tuvo la mayor precisión, esta fue muy parecida a la de los otros dos algoritmos. Además encontraron que la sensibilidad de Kaiju aumentó al usar la estrategia codiciosa, que superó a los otros dos algoritmos incluso con las lecturas pareadas de 250 nt, que representan los datos más fáciles de analizar. Al analizar metagenomas reales, encontraron que la estrategia exacta de Kaiju encuentra entre 13 y 48 por ciento más lecturas que Kraken, valores que aumentaron al usar la estrategia codiciosa. El porcentaje de lecturas clasificadas por ambas estrategias varió entre 3 y 42, mientras que si se unen los resultados de ambos algoritmos se pudo clasificar entre el 25 y el 73 por ciento de las lecturas. Como se esperaba, las muestras ambientales de suelo y agua de mar fueron las más difíciles de clasificar.
Usando la misma base de datos y métricas se encontró que Kraken tiene 5% más sensibilidad y precisión que Kaiju al asignar géneros en lecturas con longitud media de 92 nt producidos por HiSeq, mientras que la diferencia se reduce a 0.7% y 1.% a nivel de phylum. Esto es producto de que al obtenerse péptidos más cortos, estos solo se pueden asignar a un ancestro común más bajo que género. Por otro lado, al analizar datos con longitud de lectura media de 156 nt generados por MiSeq, Kaiju presentó 8% más sensibilidad y 1% más precisión que Kraken. Al comparar tiempo de ejecución, la estrategia exacta de Kaiju fue la más rápida, seguida de la estrategia codiciosa con una discordancia o de Kraken con las lecturas de 100 nt. En cuanto a memoria, Kaiju resultó ser más eficiente al tener un pico de 5.6 GB, mientras que Kraken y Clark tuvieron 72 GB y 78 GB respectivamente en la clasificación. Este programa representa una alternativa veloz y sensible para clasificar secuencias metagenómicas e incluso anotar con información funcional.
Menzel, Peter, Kim Lee Ng, and Anders Krogh. «Fast and sensitive taxonomic classification for metagenomics with Kaiju.» Nature communications 7 (2016): 11257.