Заметки по изучению дерева навыков бионавыков
>grep -nr 'TATATT' Data/ ##Показать номер строки
>less Data/example.gtf | grep -w 'gene' ## Искать в текстовом формате
>cat Data/example.gtf | grep -w -e 'gene' -e 'exon' ## несколько ключевых слов
>cat file
gene
UTR
start_codon
stop_codon
>cat Data/example.gtf | grep -w -f file ##Читать из файла
cat readme.txt | grep '^T' ##Узнаем, что начало строки — T
cat Data/example.fa | grep -n '^TATA' ##Узнаем, что начало строки — TATA,И отметьте номер строки
cat Data/example.fa | grep -n 'TATA$' ## заканчивается на ТАТА
cat Data/example.fa | grep -n '^TATA$' ##Эта строка содержит только TATA
cat readme.txt | grep 'f.ee' ## . Заменить любой символ, кроме символов новой строки
cat readme.txt | grep 'f\?ee' ## xee или fee f появляется один или ноль раз
cat readme.txt | grep -E 'f?ee' ## Если вы напишете -E, вам не нужно писать обратную косую черту.
cat readme.txt | grep 'f\\?ee' ## Находясь в поиске f\?ee
cat readme.txt | grep [bB] ## bилиB
cat readme.txt | grep [^Tt] ##Исключить Т и т
cat Data/example.gtf | grep -E 'UTR|exon'
### Рекомендуется для всех регулярных выражение Приведи их всех -E
cat Data/example.gtf | grep -wc 'gene'
cat Data/example.gtf | grep -vc 'exon'
cat Data/example.gtf | grep -wE 'CDS|UTR'
cat Data/example.gtf | grep -w -e 'CDS' -e 'UTR'
cat Data/example.fq | grep -c '@'
cat Data/example.fq | grep -c '^@'
grep -r -E -n 'TATA[AT]A[AT][ATCG]' Data/
cat Data/example.fq | grep -c '^@'
>1006
wc -l Data/example.fq
>4000
## Их больше, начиная с 6@, потому что некоторые качественные строки могут начинаться с @.
cat Data/example.fq | grep -c '^@ERR'
>1000
cat Data/example.fq | grep '^@' | grep -vn '^@ERR'
267:@;;@=BBBBBB??=?DD==8CBB@=>BBA=8=@@;DBDBBBEEBEGGGDBEEBBEGDGG@4.+?88BB<?
272:@HHHFHGHEHHGHHD;@EDFBDBBGGGDG?GGEBEGEGGGGGEBE<F8F<>A>A>GGAGA??>A######
429:@E<?GGGGBGGBGBDEED<DE<DEBDG@GE>>B;;BEEB=??2>CACAC?>B??????CE??E8?G@DD#
620:@BGDGBGEGEFGGHHHGHGH=GGGGHHHHHHDHFHHGDGHHHHHHHHHHHHDGDHHGHHHHHHHFHGHGH
633:@@;@=BDDBDDGE4GG?FGGG<GBDEEDEEHGHHFHHHHHHHFHHGGGGGHHHFHHHGHHHEHHHEGEGG
831:@GBGG?CEEDEB:E8ED>:EBD=@D6=5=<AA>A1CC>E###############################
## Сколько генов содержится в Y-хромосоме человека?
$ zless Data/Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz | cut -f 3 | grep -v '#' | grep -w 'gene' -c
> 47
## Какие типы указаны в третьем столбце файла аннотаций Y-хромосомы?
zless Data/Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz | cut -f 3 | grep -v '#' | sort |uniq -c | sort -n
1 chromosome
3 snoRNA
7 ncRNA
17 snRNA
47 gene
92 ncRNA_gene
149 mRNA
196 three_prime_UTR
222 five_prime_UTR
258 lnc_RNA
290 biological_region
382 pseudogene
382 pseudogenic_transcript
1568 CDS
4285 exon