Otra estrategia para evaluar la calidad del ensamblado genómico es compararlo directamente con el genoma de referencia. Una forma muy práctica es alinearlo, haciendo una comparación a nivel de nucleótidos con la referencia utilizando NCBI-blastn. Luego podemos visualizar fácilmente de forma gráfica la salida de BLAST en su página web:
Figura 1: NCBI - BLASTN.
Marcar la opción “Align two or more sequences”. Ingresamos el query (archivo FASTA del cromosoma completo para E. coli (genoma de referencia)) y el subject (nuestro archivo FASTA ensamblado con las lecturas cortas de Illumina). Clickeamos BLAST para correr el programa.
Figura 2: Visualización del resultado de BLASTN (scaffolds-Velvet vs genoma ref).
Vamos a utilizar la misma metodología para alinear el ensamblado realizado con lecturas largas a la referencia. En esta oportunidad el subjet va a ser el FASTA que nos devolvió el ensamblador Canu.
Figura 3: Visualización del resultado de BLASTN (scaffolds-CanuRaw vs genoma ref
Realizar una comparación con la referencia, nos permite hacer una valoración en función del grado de fraccionamiento que tuvo el ensamblado realizado y, a su vez, poder hacer una comparación con otras aproximaciones de ensamblaje. Para comparar nuestro ensamblado con la referencia, también podemos utilizar dos softwares, ABACAS (que utiliza internamente MUMMER- programa para el alineamiento rápido de genomas enteros) para ordenar los scaffolds mediante alineamientos con respecto al genoma de referencia, y el programa ACT (Artemis Comparision Tool) para visualizar estos resultados.
Creen una carpeta para cada alineamiento:
mkdir abacasVelvet
Dentro de dicha carpeta ejecute el siguiente comando:
abacas -r ../Ensamblado_DATA/E_coli_Reference_Genome/e.coli_reference.fa -q ../Assembly_velvet/contigs.fa -b -d -o velvet-Ref.ordered -c -p promer
Para abrir el programa, ejecute el siguiente comando (espere a que los decentes lo habiliten)
act
Con las opciones
-b
contigs/scaffolds no utilizados en un archivo .bin multifasta
-d
usa los parámetros por defecto de promer
-c
cuando la referencia es un genoma circular
Inmediatamente se abre una ventana del programa. Para subir los archivos: File → Open . . .
Figura 4: ACT - Carga de archivos.
Cargue los archivos en el siguiente orden:
Sequence file 1 - E_coli_K12_reference.fasta
Comparison file 1 - velvet-Ref.ordered.crunch
Sequence file 2 - velvet-Ref.ordered.fasta
Realizaremos el mismo procedimiento para todos los ensamblados con Canu.
abacas -r ../Ensamblado_DATA/E_coli_Reference_Genome/e.coli_reference.fa -q ../Assembly_canu_Pacbio/ecoli-pacbio.contigs.fasta -b -d -o canuRaw-Ref.ordered -c -p promer
Corran el mismo comando para los ensamblados de HIFI y de Nanopore.
Figura 5: ACT - Contigs VELVET vs referencia.
Figura 6: ACT - Contigs CANU vs referencia.
Otra forma de realizar la comparación es hacer un alineamiento global y visualizar el resultado en un dot-plot. Para esto vamos a usar MUMmer y Assemblytics http://assemblytics.com/ (herramienta web). Además, Assemblytics es una herramienta que realiza dot-plots y permite detectar variantes estructurales.
Generamos los alineamientos ejecutando nucmer
: - (Corran nucmer para cada ensamblado dentro de su carpeta correspondiente de abacas)
nucmer -maxmatch -l 100 -c 500 ../Ensamblado_DATA/E_coli_Reference_Genome/e.coli_reference.fa ../Assembly_velvet/contigs.fa -prefix velvet-ref-nucmer
nucmer -maxmatch -l 100 -c 500 ../Ensamblado_DATA/E_coli_Reference_Genome/e.coli_reference.fa ../Assembly_canu_Pacbio/ecoli-pacbio.contigs.fasta -prefix canuRaw-Ref-nucmer
Corran nucmer para los otros ensamblados de HIFI y de Nanopore.
Esto genera un archivo de salida prefijo.delta que subiremos a Assemblytics. Los parámetros se dejan por defecto.
Luego de Submit
, en la ventana aparece un mensaje como el siguiente, donde les avisa que el formato del archivo subido es el correcto. Dar Continue
.
Luego de Continue
en la ventana aparece un resultado donde deben clickear Interactive dot plot
para visualizarlo.
Figura 7 - Dot plot Ensamblado Velvet VS Referencia
Figura 8 - zoom Dot plot Ensamblado Velvet VS Referencia
Figura 9 - Dot plot Ensamblado Canu VS Referencia
Figura 10 - Dot plot Ensamblado CanuHIFI VS Referencia
Figura 11 - zoom Dot plot Ensamblado CanuHIFI VS Referencia
Figura 12 - Dot plot Ensamblado Nanopore VS Referencia
Figura 13 - zoom Dot plot Ensamblado Nanopore VS Referencia
Finalmente, y solo en forma de mención es habitual buscar mejorar la calidad del ensamblado para poder realizar diversos análisis como genómica funcional, comparativa, etc. Históricamente muchos enfoques se han utilizado para mejorar la calidad draft del genoma (la que poseemos hasta ahora) de una manera costo eficiente y automatizada. Con las tecnologías de NGS de segunda generación la utilización de lecturas pareadas (con diferentes tamaños de insertos) ha ayudado a cerrar los gaps y mejorar así la calidad del ensamblado. Sin embargo, en recientes años el avance de la tecnología de NGS llevo al establecimiento de una nueva generación de secuenciadores, y con ello nuevas estrategias de resolución de ensamblados. PacBio fué el primer secuenciador en ofrecer reads largos (3-8 Kb en promedio), sin sesgos en GC ni errores sistemáticos, pero tiene un menor rendimiento y menor exactitud. A pesar de estos problemas, las lecturas extremadamente largas y no sesgadas son especialmente adecuadas para el mejoramiento de los ensamblados genómicos. Las lecturas de PacBio pueden ser utilizadas de diversas maneras para mejorar los ensamblados de novo de genomas, sin embargo, el método que queremos destacar es la técnica de scaffolding el cual usa un ensamblaje existente (tal como el que poseemos hasta ahora), y las lecturas largas de PacBio para cerrar los gaps. La ventaja de este método es que no se necesita invertir mucho en la secuenciación ya que ha sido probado que con una baja cobertura se logra mejorar mucho el ensamblado. La presente sección no pretende demostrar cómo se realiza el scaffolding, sino que simplemente busca presentar un software muy utilizado para mejorar los ensamblados mediante scaffolding. Hay que considerar que debido a la presencia de muy buenas referencias de E. coli no sería imprescindible mejorar su genoma mediante métodos híbridos ( reads cortos y largos), sin embargo, en otros genomas pequeños donde la calidad de los ensamblados en general es pobre sería una opción recomendable. El software PBJELLY es un pipeline altamente automatizado que alinea secuencias largas (PacBio) a un ensamblado genómico producido mediante lecturas cortas. El alineamiento de secuencias lo realiza con BLASR (que es un BLAST optimizado para lecturas largas con alto porcentaje de error, i.e., PacBio) lo que le permite identificar donde se encuentran los gaps para luego cerrarlos y mejorar así la calidad del draft. Y es el software que recomendamos para realizar la terminación genómica.