Genómica evolutiva 2023


En este práctico realizaremos la búsqueda de genes en los genomas ensamblados de S. cerevisiae usando la herramienta web Augustus, la cual puede combinar métodos estadísticos (ab initio), datos de expresión génica, y datos conservación evolutiva. En nuestro caso usaremos una combinación de métodos estadísticos (cadenas ocultas de Markov o HMM) y datos de expresión para hacer la predicción, y evaluaremos esas predicciones usando la herramienta BUSCO (Benchmarking Universal Single-Copy Orthologs). Luego haremos la anotación funcional de los genes, usando dos aproximaciones distintas: blast vs la base de datos Uniprot-Swissprot (una base de datos de secuencias de proteínas y anotación funcional anotada manualmente), y blast-koala para anotar EC numbers.

En los prácticos anteriores de ensamblaje, realizamos diferentes ensamblajes con distintos tipos de reads (Naonopore, PacBio, Illumina) y distintos tipos de ensambladores (Abyss, CANU). Observamos también que usando sólo reads illumina y el algoritmo Abyss, los ensamblajes quedaron muy fragmentados.


Parte 1: Antoación de un cromosoma

Usaremos la interfaz web del servidor antiguo de Augustus (http://bioinf.uni-greifswald.de/augustus/), cuyos resultados son devueltos en forma instantánea, para explorar algunas formas alternativas de predicción de genes usando el cromosoma II de S. cerevisiae.



Para esto vamos a necesitar obtener archivos que contengan los contigs correspondientes (los que mapean) al cromosoma que queremos anotar.

Usamos entonces la salida de blast (del ensamblaje vs el genoma de refrencia) y obtenemos un archivo  con el nombre de los contigs que "pegan" contra el Cromosoma II de la levadura.

prompt@maquina:$ grep "_II|" salida.blast | awk '{print $1} |sort|uniq > nombres.txt


Luego generamos un subensamblaje que contenga sólo los contigs correspondientes al cromosoma II.

prompt@maquina:$ grep -w -A1 -f nombres.txt ABYSS94-scaffolds.fa > Ch2_abyss.fas


Repita este procedimiento para el ensamblaje CANU con reads nanopore


Abrir dos pestañas de la “web interface” y en cada una de ellas realizar una búsqueda con una de las versiones del cromosoma, la realizada con Illumina y la realizada con Nanopore (ya tenemos la anotación de la referencia). Elija “Saccharomyces cerevisiae” como organismo. Haga click en The graphical and text results are here y luego abra una pestaña nueva haciendo click derecho en text results (gff). Se abrirá un archivo de texto en formato gtf en el navegador. Puede salvar esos resultados como un archivo de texto con Ctrl + S. Repita el proceso con el resultado predicted amino acid sequences y predicted coding sequences. Luego de tener los resultados cree una tabla (tipo excel u hoja de calc), y obtenga algunas estadísticas básicas para cada una de las predicciones como:

Esa información es fácilmente obtenible a partir de los gff que generaron (los nombres de los archivos en los comandos pueden ser distintos) Atención: las líneas correspondientes a comentarios no deben ser tenidas en cuenta (las que comienzan con símbolo numeral “#”)

prompt@maquina:$ grep -c -w "gene" augustus.gtf # también busque "transcript" e "intron"

Obtengan también el número de genes con intrones y el número de genes con más de 1 intrón:

prompt@maquina:$ grep -w "intron" augustus.gtf | awk '{print $NF}' | sort | uniq | wc -l
prompt@maquina:$ grep -w "intron" augustus.gtf | awk '{print $NF}' | sort | uniq -c | sort -nr -k1 | grep -v ^" *1" | wc -l

Obtenga también el largo promedio de los CDS y del producto del gen. Para ello puede usar una combinación de infoseq y awk como hemos hecho anteriormente:

prompt@maquina:$ infoseq -only -length augustus.aa | awk '{ sum += $1} END { print sum/NR }' 
prompt@maquina:$ infoseq -only -length file.cds | awk '{ sum += $1} END { print sum/NR }'

¿Qué diferencias observa entre los resultados de los dos ensamblajes?

Realizar una predicción de genes de este mismo cromosoma usando como especie de entrenamiento de la HMM a otro hongo y obtener los mismos estadísticos. ¿Qué diferencias observa? ¿A que podría deberse?

Parte 2: Evaluación de predicciones

Usaremos un programa llamado BUSCO para evaluar la predicción obtenida con augustus para ambos ensamblajes. BUSCO (Benchmarking Universal Single-Copy Orthologs) busca entre nuestras predicciones un set de ortólogos de copia única (llamados BUSCOs) y genera un reporte del resultado, permitiéndonos evaluar nuestro ensamblaje y nuestras predicciones. La lógica detrás es que si estos genes son universales deberíamos poder encontrarlos en nuestro genoma. Si no, es señal de que algo salió mal en el proceso que nos llevó hasta este punto (aunque no necesariamente es la predicción en sí).

Evaluaremos las anotaciones generadas con augustus a partir de tres genomas:

1) Genoma secuenciado con Illumina y ensamblado con Abyss
2) Genoma secuenciado con Nanopore y ensamblado con CANU
3) Genoma secuenciado con Nanopore y ensamblado con CANU y corregido con PILON (usando reads Illumina)

Los predicciones realizadas con agustus que queremos evaluar se encuentran en:
/media14/YEAST/ensamble2023/predicciones_corregidos
/media14/YEAST/ensamble2023/predicciones_NOcorregidos
/media14/YEAST/ensamble2023/predicciones_abyss


Corra el programa para cada uno de los archivos augustus.aa

prompt@maquina:$ busco -i augustus_NOcorregido.aa -o BUSCO_NOcorregido -l saccharomycetes_odb10 -m proteins -f
prompt@maquina:$ busco -i augustus_corregido.aa -o BUSCO_corregido -l saccharomycetes_odb10 -m proteins -f
prompt@maquina:$ busco -i augustus_abyss.aa -o BUSCO_abyss -l saccharomycetes_odb10 -m proteins -f

Esto demora unos pocos minutos. Visualize en cada caso el archivo short_summary_BUSCO.txt, que se encuentra en el directorio de salida de cada corrida. ¿Hay diferencias entre los resultados? ¿Es esperable el resultado obtenido?


Predicción de todo el genoma con Augustus (opcional)

Les dejamos esta parte del protocolo para que puedan saber como hicimos para generar las predicciones de los puntos de 1, 2 y 3 que usamos con BUSCO.

Bajar a su máquina local los datos a usar en el práctico mediante scp.

prompt@maquina:$ scp -r usuario@scoville3e6.fcien.edu.uy:/media14/YEAST/ensamble2023 . 

Entre estos datos encontrará subdirectorios con ensamblajes realizados con datos Illumina y ensamblados con Abyss, y datos nanopore ensamblados con CANU.

Para la anotación se debe contar con datos de cDNAs de S. cerevisiae que son útiles para confirmar los modelos génicos (archivo mRNA.fas). 

En primer lugar lanzaremos la búsqueda de genes de nuestros ensamblajes (tanto corregidos como sin corregir) usando Augustus. Acceder al servidor de Augustus (http://bioinf.uni-greifswald.de/webaugustus/) e ir a Submit Prediction.

Luego de entrar los datos solicitados (e-mail) debe seleccionar la especie. Además deberá subir su ensamblado. También, en caso de tener datos de cDNA, deben ser subidos. En nuestro caso sería el archivo mRNA.fas. Todas las demás opciones quedarán por default. Haga esto para el ensamblaje corregido con Pilon y para el ensamblaje sin corregir.