Evaluación de ensamblajes basados en tecnologías de tercera generación

Genómica evolutiva 2021

Lo primero será visualizar los ensamblajes realizados en el servidor scoville3e6 que realizó la semana pasada.

1- Explore la carpeta con los resulados de su ensamblaje. Los nombres de los archivos finales tienen la siguiente forma:

Para CANU: *.contigs.fasta
Para FLYE: *.contigs.fasta

2- Copie los archivos finales de sus ensamblajes a su máquina virtual. En el resto de la guía llamaremos ensamblaje.fas a estos archivos. Recuerde reemplazar este nombre por el nombre correspondiente a su ensamblaje.

prompt@maquina:$ mkdir evaluacion_3G
prompt@maquina:$ cd evaluacion_3G
# copie mediante scp los archivos desde scoville a su maquina virtual

3- Obtenga las estadísticas básicas de sus ensamblajes (número de contigs, N50, L50, largo total).

prompt@maquina:$ abyss-fac ensamblaje.fas

Para los siguientes ejercicios elija uno de sus ensamblajes.

4- Vamos a comparar el ensamblaje elegido con dos genomas de referencia, el de la cepa S288c, y el de la cepa CEN_PK_113D, del paper del cual obtuvimos los datos. Copie los archivos correspondientes desde scoville a su máquina virtual:

prompt@maquina:$ scp cursogN@scoville3e6.fcien.edu.uy:/media2/YEAST/genoma_ncbi/YEAST_chromosome.fas ./
prompt@maquina:$ scp cursogN@scoville3e6.fcien.edu.uy:/media2/YEAST/genoma_ncbi/CEN_PK_113D.Genbank.fasta ./

Una forma rápida de comparar distintos ensamblajes es realizar un alineamiento BLAST localmente:

prompt@maquina:$ blastn -query ensamblaje.fas -subject YEAST_chromosome.fas -outfmt "6 std qlen slen" > blast_YEAST
prompt@maquina:$ blastn -query ensamblaje.fas -subject CEN_PK_113D.Genbank.fasta -outfmt 6 > blast_CEN_PK

Visualice los archivos generados, verá que algunos hits son muy cortos, por lo que para ver mejor el resultado conviene quedarnos sólo con los hits (HSP) mayores a 10 mil bases. Para eso podemos usar awk:

prompt@maquina:$ awk '$4>10000 {print}' blast_YEAST > blast_YEAST_filtrado
prompt@maquina:$ awk '$4>10000 {print}' blast_CEN_PK > blast_CENPK_filtrado

¿Qué diferencias encuentra entre ambas comparaciones?
¿Cuántos fragmentos (HSP) se obtienen para el cromosoma VII de la levadura?
¿Cuántos fragmentos (HSP) se obtienen para el contig CP022967.1, correspondiente al cromosoma VII de la levadura?
¿Algún contig corresponde a un cromosoma completo?

5- Otra forma de realizar la comparación es hacer un alineamiento global y visualizar el resultado en un dot-plot. Para esto vamos a usar MUMmer y Assemblytics. MUMmer es un programa para el alineamiento rápido de genomas enteros. nucmer (de Nucleotide MUMmer) es su herramienta para alinear secuencias de ADN. Assemblytics es una herramienta que realiza dot-plots y permite detectar variantes estructurales.

Para realizar el alineamiento corremos nucmer:

prompt@maquina:$ nucmer CEN_PK_113D.Genbank.fasta ensamblaje.fas -prefix ensamblaje_vs_CEN_PK

Si le da el tiempo, repita el proceso con la otra referencia:

prompt@maquina:$ nucmer YEAST_chromosome.fas ensamblaje.fas -prefix ensamblaje_vs_YEAST

Esto genera un archivo de salida prefijo.delta que subiremos a Assemblytics. Abra el link http://assemblytics.com/ en el navegador de su máquina virtual y suba el archivo .delta. Puede cambiar el nombre del organismo, así como el tamaño de las variantes a visualizar.

6- Búsqueda de repetidos en un cromosoma (YASS)

Vimos la utilidad de usar los dotplot de YASS para comparar los contigs contra un cromosoma, pero también se puede utilizar para comparar un contig o cromosoma consigo mismo. Esta herramienta y tipo de plot es muy útil para observar inversiones y repetidos.

Vamos a realizar un dot-plot del contig CP025735.1 de la referencia CEN_PK_113D contra sí mismo. Primero extraemos la secuencia del contig:

prompt@maquina:$ fastaUtils.pl -u CEN_PK_113D.Genbank.fasta | grep -w -A1 CP025735.1 > CP025735.fasta
# Nota: fastaUtils.pl -u transforma un fasta multilinea a una única linea.
# Nota2: Esto se puede realizar de varias formas por ejemplo usando tr y sed:
prompt@maquina:$ tr '\n' d < CEN_PK_113D.Genbank.fasta | sed 's/>/\n>/g' | sed 's/sequence/sequence\n/' | grep -w -A1 CP025735.1 > CP025735.fasta

Suba el archivo en la web de YASS (https://bioinfo.lifl.fr/yass/yass.php) y genere el dotplot.

¿Puede identificar alguna estructura?
¿Qué longitud tiene la secuencia? A que le parece que corresponde?
¿Esta secuencia aparece en el ensamblaje que realizó?

Seleccione y aísle los contigs de su ensamblaje que mapean sobre dicho contig, generando un archivo multifasta que contenga solamente estos contigs.

Primero dejamos las secuencias de nuestro ensamblaje en una única línea:

prompt@maquina:$ fastaUtils.pl -u ensamblaje.fas > ensamblaje_U.fas

Luego es el mismo procedimiento que el realizado en el práctico anterior.

prompt@maquina:$ grep -w "CP025735.1" blast_CEN_PK | awk '{print ">"$1}' > contigs.lista
prompt@maquina:$ grep --no-group-separator -A1 -w -f contigs.lista ensamblaje_U.fas > contigs_CP025735.fasta

Nota: la opción --no-group-separator del comando grep suprime el -- en la salida.

Realice el dot-plot con YASS (https://bioinfo.lifl.fr/yass/yass.php) entre el contig CP025735.1.fa de la referencia y los contigs correspondientes de su ensamblaje, del archivo contigs_CP025735.fasta.

Discuta los resultados.