Genómica evolutiva 2021


Ensamblado de novo


Vamos a ensamblar de novo un genoma de Saccharomyces cerevisiae usando reads obtenidos mediante tres tecnologías distintas, Illumina, PacBio, y Nanopore. Para ello usaremos distintos tipos de ensambladores y compararemos los resultados.

Debido al alto costo computacional del problema, nos vamos a dividir en grupos, y cada grupo realizará cuatro ensamblados, dos de reads cortos y dos de reads largos.


Ensamblado de reads cortos: ABySS


Entre al servidor scoville3e6.fcien.edu.uy con el usuario y contraseña de su grupo. Los archivos FASTQ correspondientes a los reads Illumina se encuentran en /media2/YEAST/illumina_reads/SRR8922830_?.fastq. Cópielos a su directorio de trabajo dentro del servidor, que será /media2/cursog1 para el grupo 1, /media2/cursog2 para el grupo 2, etc.

Para ensamblar los reads cortos de Illumina, usaremos ABySS, un ensamblador basado en los grafos de Bruijn. Como nuestros reads son pareados, para ejecutar el ensamblador vamos a usar el comando abyss-pe. Ciertos parámetros del programa necesitan ser establecidos por el usuario. Estos parámetros pueden tener un gran efecto sobre el resultado del ensamblado, siendo k, el tamaño de los k-meros, el parámetro crítico.


Corra el programa indicando el tamaño de k-mero y dando como entrada los reads Illumina. Vamos a hacer dos corridas, una con un tamaño de k-mero de 94 y otra de 50 (pueden variar un poco si quieren):

usuario@maquina:$ nohup abyss-pe k=94 name=ABYSS in='SRR8922830_1.fastq SRR8922830_2.fastq' &
usuario@maquina:$ nohup abyss-pe k=50 name=ABYSS in='SRR8922830_1.fastq SRR8922830_2.fastq' &


El parámetro k indica el tamaño de k-mero. name indica el nombre que queremos asignarle a nuestro archivo de salida.

El comando nohup (por no hang up) que ponemos al principio de la línea, es un comando que mantiene los procesos en ejecución incluso después de salir del shell, es decir que impide que los procesos se corten cuando cerramos la terminal. Es muy útil para correr procesos que demoran en terminar.


Ensamblado de reads largos


Vamos a utilizar los programas Canu y Flye, y vamos a dividir el trabajo de la siguiente manera:

Los reads nanopore se encuentran en /media2/YEAST/nanopore_reads/SRR5989372.fastq, y los reads PacBio se encuentran en /media2/YEAST/pacbio_reads/SRR5989371.fastq. Copie los archivos fastq correspondientes a los ensamblajes que debe realizar a su directorio de trabajo en el servidor, que nuevamente es /media2/cursog1 para el grupo 1, /media2/cursog2 para el grupo 2, etc.


Ensamblado con Canu


Canu es un ensamblador basado en el algoritmo OLC. El programa permite elegir el tipo de reads usando la opción -pacbio para reads de PacBio, -nanopore para reads de Nanopore, o usando ambas opciones si vamos a ensamblar los dos tipos de reads. Se le pueden dar reads “crudos” o corregidos. Debemos indicar el tamaño esperado del genoma, que en nuestro caso es 12M. Puesto que Canu no usa datos de calidad, también se podrían usar archivos FASTA en lugar de FASTQ.

Ejecute canu para ensamblar:

usuario@maquina:$ nohup canu -p canu_pacbio -d canu_pacbio genomeSize=12M -pacbio SRR5989371.fastq maxThreads=4 &
usuario@maquina:$ nohup canu -p canu_nanopore -d canu_nanopore genomeSize=12M -nanopore SRR5989372.fastq maxThreads=4 &
usuario@maquina:$ nohup canu -p canu_combinado -d canu_combinado genomeSize=12M -pacbio SRR5989371.fastq -nanopore SRR5989372.fastq maxThreads=4 &


Ensamblado con Flye


Flye es otro ensamblador de reads largos, más reciente pero aún en desarrollo. Se destaca por ser mucho más rápido que Canu, y a diferencia de éste, no corrige los reads antes de ensamblar. Flye permite elegir el tipo de reads usando la opción --pacbio-raw para reads de PacBio, o --nano-raw para reads de Nanopore. También se le pueden asignar reads ya corregidos (--pacbio-corr o --nano-raw).

Ejecute el programa usando los reads correspondientes:

usuario@maquina:$ nohup flye --pacbio-raw SRR5989371.fastq -o flye_pacbio -t 4 &
usuario@maquina:$ nohup flye --nano-raw SRR5989372.fastq -o flye_nanopore -t 4 &