Ejercicios awk sed

•1- transformar el archivo fastq ex2.fastq, en un archivo fasta

•2- transformar un archivo fasta GCF_Sparadoxus_cds.fna que contiene varias líneas por cada secuencia en uno que tenga 1 solo línea en cada secuencia y luego pasarlo a uno que tenga solo 30 caracteres por linea

•Sugerencia usar primero el comando tr para eliminar los saltos de línea y luego sed

awk

•1- Usando el archivo de anotacion PII.gff, imprimir las lineas de los genes cuyo largo sea mayor a 4000 nucletidos

•2- Lo mismo que en 1, pero exclusivamente para los genes ubicado en el contig de nombre tig00000011

•3- a-calcular la identidad promedio de los HSP de blast ( Scerevisae_Sparadoxus.bl, formato tabular) cuyo largo de alineamiento sea superior a 500. Indicar ademas cuantos HSP cumplen esta condición
b-identificar genes que tengan identidad superior a 99% pero que sean de distinto largo

•4- Usando SOLO awk contar cuantos genes ribosomales hay en el archivo de anotacion PII.gff y calcular su largo promedio

•5 a ejecutar el script siguiente que cuenta los aminoacidos y su largo

{K=0;for (i=1;i<=NF;i++) K+=$i; { print K,NF}}

b Analizar y ejecuta el siguiente script de awk.

Se ejecuca invocando el comando freq_cont.pl en un pipeline
freq_count.pl pep 1 archivo.aa c |

BEGIN{
KD["1"]=1.80;
KD["2"]=2.50;
KD["3"]=-3.50;
KD["4"]=-3.50;
KD["5"]=2.80;
KD["6"]=-0.40;
KD["7"]=-3.20;
KD["8"]=4.50;
KD["9"]=-3.90;
KD["10"]=3.80;
KD["11"]=1.90;
KD["12"]=-3.50;
KD["13"]=-1.60;
KD["14"]=-3.50;
KD["15"]=-4.50;
KD["16"]=-0.80;
KD["17"]=-0.70;
KD["18"]=4.20;
KD["19"]=-0.90;
KD["20"]=-1.30
}
{ for (i=1;i<21;i++) {H+=KD[i]*$i;largo=largo+$i};print largo,H/largo ; largo=0;H=0}

soluciones

2 fastaUtils.pl -u GCF_Sparadoxus_cds.fna |sed 's/ $^[ACGT][ACGT]\{1,30\}$ /\1\n/g'