Ejercicios awk sed



•1- transformar el archivo fastq  ex2.fastq, en un archivo fasta
•2- transformar un archivo fasta GCF_Sparadoxus_cds.fna que contiene  varias líneas por cada secuencia en uno que tenga 1 solo línea en cada secuencia  y luego pasarlo a uno que tenga solo 30 caracteres por linea
•Sugerencia usar primero el comando tr para eliminar los saltos de línea y luego sed

awk

•1- Usando el archivo de anotacion PII.gff, imprimir las lineas de los genes cuyo largo sea mayor a 4000 nucletidos
•2- Lo mismo que en 1, pero exclusivamente para los genes ubicado en el contig de nombre tig00000011
•3- a-calcular la identidad promedio de los HSP de blast ( Scerevisae_Sparadoxus.bl, formato tabular) cuyo largo de alineamiento sea superior a 500. Indicar ademas cuantos HSP cumplen esta condición
b-identificar genes que tengan identidad superior a 99% pero que sean de distinto largo
•4- Usando SOLO awk contar cuantos genes ribosomales hay en el archivo de anotacion PII.gff y calcular su largo promedio

•5  a ejecutar el script siguiente que cuenta los aminoacidos y su largo

       

           {K=0;for (i=1;i<=NF;i++) K+=$i; { print K,NF}}

b  Analizar y ejecuta el siguiente script de awk.

Se ejecuca invocando el comando freq_cont.pl en un pipeline
freq_count.pl pep 1 archivo.aa c |

BEGIN{
KD["1"]=1.80;
KD["2"]=2.50;
KD["3"]=-3.50;
KD["4"]=-3.50;
KD["5"]=2.80;
KD["6"]=-0.40;
KD["7"]=-3.20;
KD["8"]=4.50;
KD["9"]=-3.90;
KD["10"]=3.80;
KD["11"]=1.90;
KD["12"]=-3.50;
KD["13"]=-1.60;
KD["14"]=-3.50;
KD["15"]=-4.50;
KD["16"]=-0.80;
KD["17"]=-0.70;
KD["18"]=4.20;
KD["19"]=-0.90;
KD["20"]=-1.30
}
{ for (i=1;i<21;i++) {H+=KD[i]*$i;largo=largo+$i};print largo,H/largo ; largo=0;H=0}




soluciones

2 fastaUtils.pl -u GCF_Sparadoxus_cds.fna |sed 's/[ACGT][ACGT]{1,30}[ACGT][ACGT]{1,30}/\1\n/g'