BEDTools

 
2019 年 10 月 14日 改訂
井上 潤

BEDtools は BED ファイルの処理を行うソフトウェアです.ゲノム上にあるアノテーション情報を操作します (こちら).開発が熱心に行われているようです (こちら).

fasta file から配列を取得する: bedtools

BEDTools の getfasta を用いて,fasta file から配列を得られます.

例題は bedtools_getfasta.tar.gz です.BEDTools のインストールについては,こちらをご参照ください.

$ bedtools getfasta -fi test.fa -bed test.bed -fo test.out

$ cat test.fa
>chr1
AAAAAAAACCCCCCCCCCCCCGCTACTGGGGGGGGGGGGGGGGGG
$ cat test.bed
chr1 5 10
$ cat test.out
>chr1:5-10
AAACC

v2.17.0 では,-fo test.fa.out がないと,動きませんでした.

blastdbcmd と違い,getfasta は repeat 配列を小文字で出してくれます (以下).この場合は,あらかじめ指定するデータベース (fast file) 内部で, repeat 配列が小文字で示されている必要があります (例えば,UCSC の .2bit ファイルなど).

>chr1_26072XXX_26072X
gcttgctcacaagaagaaCAAGTTCTATTTCA

M.U. さんから教えてえいただきました.ありがとうございました (2019 年 8 月).
なお,出力された fasta file をソートするには,以下のコラムを参照してください.


fasta file を chr と start でソートする
sort_by_chr_start.tar.gz (2019 年 10 月)


リンク

Plasmsonntagmorgen

getfasta の解説.

NGS Surfer's Wiki

概要.