En este práctico realizaremos la búsqueda de genes en los genomas ensamblados de S. cerevisiae usando la herramienta web Augustus, la cual puede combinar métodos estadísticos (ab initio), datos de expresión génica, y datos conservación evolutiva. En nuestro caso usaremos una combinación de métodos estadísticos (cadenas ocultas de Markov o HMM) y datos de expresión para hacer la predicción, y evaluaremos esas predicciones usando la herramienta BUSCO (Benchmarking Universal Single-Copy Orthologs). Luego haremos la anotación funcional de los genes, usando dos aproximaciones distintas: blast vs la base de datos Uniprot-Swissprot (una base de datos de secuencias de proteínas y anotación funcional anotada manualmente), y blast-koala para anotar EC numbers.
En los prácticos anteriores de ensamblaje, realizamos
diferentes ensamblajes con distintos tipos de reads (Naonopore,
PacBio, Illumina) y distintos tipos de ensambladores (Abyss,
CANU). Observamos también que usando sólo reads illumina y el
algoritmo Abyss, los ensamblajes quedaron muy fragmentados.
Usaremos la interfaz web del servidor antiguo de Augustus (http://bioinf.uni-greifswald.de/augustus/), cuyos resultados son devueltos en forma instantánea, para explorar algunas formas alternativas de predicción de genes usando el cromosoma II de S. cerevisiae.
Para esto vamos a necesitar obtener archivos que contengan los
contigs correspondientes (los que mapean) al cromosoma que
queremos anotar.
Usamos entonces la salida de blast (del ensamblaje vs el genoma
de refrencia) y obtenemos un archivo con el nombre de los
contigs que "pegan" contra el Cromosoma II de la levadura.
prompt@maquina:$ grep "_II|" salida.blast | awk '{print $1} |sort|uniq > nombres.txt
Luego generamos un subensamblaje que contenga sólo los contigs
correspondientes al cromosoma II.
prompt@maquina:$ grep -w -A1 -f nombres.txt ABYSS94-scaffolds.fa > Ch2_abyss.fas
Repita este procedimiento para el ensamblaje CANU con reads
nanopore
Abrir dos pestañas de la “web interface” y en cada una de ellas
realizar una búsqueda con una de las versiones del cromosoma, la
realizada con Illumina y la realizada con Nanopore (ya tenemos
la anotación de la referencia). Elija “Saccharomyces cerevisiae”
como organismo. Haga click en The graphical and text
results are here y luego abra una pestaña nueva
haciendo click derecho en text results (gff).
Se abrirá un archivo de texto en formato gtf en el navegador.
Puede salvar esos resultados como un archivo de texto con Ctrl
+ S. Repita el proceso con el resultado predicted
amino acid sequences y predicted coding
sequences. Luego de tener los resultados cree una
tabla (tipo excel u hoja de calc), y obtenga algunas
estadísticas básicas para cada una de las predicciones como:
Número de genes
Número de transcriptos
Número de intrones
Esa información es fácilmente obtenible a partir de los gff que generaron (los nombres de los archivos en los comandos pueden ser distintos) Atención: las líneas correspondientes a comentarios no deben ser tenidas en cuenta (las que comienzan con símbolo numeral “#”)
prompt@maquina:$ grep -c -w "gene" augustus.gtf # también busque "transcript" e "intron"
Obtengan también el número de genes con intrones y el número de genes con más de 1 intrón:
prompt@maquina:$ grep -w "intron" augustus.gtf | awk '{print $NF}' | sort | uniq | wc -l
prompt@maquina:$ grep -w "intron" augustus.gtf | awk '{print $NF}' | sort | uniq -c | sort -nr -k1 | grep -v ^" *1" | wc -l
Obtenga también el largo promedio de los CDS y del producto del gen. Para ello puede usar una combinación de infoseq y awk como hemos hecho anteriormente:
prompt@maquina:$ infoseq -only -length augustus.aa | awk '{ sum += $1} END { print sum/NR }'
prompt@maquina:$ infoseq -only -length file.cds | awk '{ sum += $1} END { print sum/NR }'
¿Qué diferencias observa entre los resultados de los dos
ensamblajes?
Realizar una predicción de genes de este mismo cromosoma usando como especie de entrenamiento de la HMM a otro hongo y obtener los mismos estadísticos. ¿Qué diferencias observa? ¿A que podría deberse?
augustus.aa
prompt@maquina:$ busco -i augustus_NOcorregido.aa -o BUSCO_NOcorregido -l saccharomycetes_odb10 -m proteins -f prompt@maquina:$ busco -i augustus_corregido.aa -o BUSCO_corregido -l saccharomycetes_odb10 -m proteins -f
prompt@maquina:$ busco -i augustus_abyss.aa -o BUSCO_abyss -l saccharomycetes_odb10 -m proteins -f
Esto demora unos pocos minutos. Visualize en cada caso el
archivo short_summary_BUSCO.txt
, que se encuentra
en el directorio de salida de cada corrida. ¿Hay diferencias
entre los resultados? ¿Es esperable el resultado obtenido?
Les dejamos esta parte del protocolo para
que puedan saber como hicimos para generar las predicciones de
los puntos de 1, 2 y 3 que usamos con BUSCO.
Bajar a su máquina local los datos a usar en el práctico mediante scp.
prompt@maquina:$ scp -r usuario@scoville3e6.fcien.edu.uy:/media14/YEAST/ensamble2023 .
Entre estos datos encontrará
subdirectorios con ensamblajes realizados con datos Illumina y
ensamblados con Abyss, y datos nanopore ensamblados con CANU.
mRNA.fas
).
En primer lugar lanzaremos la búsqueda de genes de nuestros ensamblajes (tanto corregidos como sin corregir) usando Augustus. Acceder al servidor de Augustus (http://bioinf.uni-greifswald.de/webaugustus/) e ir a Submit Prediction.
Luego de entrar los datos solicitados
(e-mail) debe seleccionar la especie. Además deberá subir su
ensamblado. También, en caso de tener datos de cDNA, deben ser
subidos. En nuestro caso sería el archivo mRNA.fas
.
Todas las demás opciones quedarán por default. Haga esto para
el ensamblaje corregido con Pilon y para el ensamblaje sin
corregir.