NOVOPlasty

NOVOPlasty

2020 年 6 月 13 日　改訂

NOVOPlasty はミトコンドリアや葉緑体ゲノム専用のアセンブラです．

・perl．このためコンパイルは不要．
・高速．うまく行けば数分で終わる．もちろん reads 数によると思うが，10 分ぐらいで終わる．
・シード配列を用いる．
・次世代シーケンサーから得られたペアードエンドの生データを解析．
・Filter や quality trim などの操作をデータに施さない．
・他のアセンブラよりも速い (Dierckxsens et al. 16)．
・常に異なる K-mer を試す．Coverage が低い場合や reads が 90bp 以下の場合は，低い K-mer 25-39 を試す．Reads が 101bp より長い場合は，K-mer 値を増やしても良い．
・30X 程度の coverage を推奨．Coverage が大きすぎると，スピードが遅くなる．それだけメモリも必要．

インファイル

ヒトデ類のミトコンドリアゲノム解析の例です．

Project name = test_S1_L001
Insert size = 300
Insert size auto = yes
Read Length = 300
Type = mito
Genome range = 15000-17000
K-mer = 39
Insert range = 1.6
Insert range strict = 1.2
Paired/Single = PE
Max memory =
Extended log = 0
Save assembled reads = no
Combined reads =
Forward reads = /Adress/test_L001_R1_001.fastq
Reverse reads = /Addres/test_L001_R2_001.fastq
Seed Input = /queryOkiPheStart.txt
Reference sequence =
Chloroplast sequence =

上記ファイルを test_config.txt として保存し，以下のコマンドで走らせます．

NOVOPlasty2.6.3.pl -c pompei-cot-pe-18_S1_L001_config.txt

アウトファイル

脊椎動物のミトコンドリアゲノムなどでは，MitoAnnotator でアノテーションすると良いと思います．ヒトデ類などでも，だいたいうまくアノテーションされます．

Circularized_assembly_1_*.fasta

良い結果が出たら，アセンブルされた全ミトコンドリアゲノム遺伝子配列が，このファイルに保存されます．良い結果が得られなかった場合，このファイルは作成されません．

Merged_contigs_*.txt

上記，Circularized_assembly_1_*.fasta が作成されない場合，まずこちらのファイルにあるデータを見ます．

Contigs_1_*.fast

このファイルに保存される contig が使える場合もあります．

系統解析へのパイプライン

Novoplasty_mtGenomePopulation.tar.gz
解析には，MAFFT, TrimAl, RAxML が必要です．

python3 010collectSeq.py

得られた結果は 010out.txt に保存されます．普通，010out.txt に並べられた mtGenome 配列 (環状) の先頭は，揃っていません．このため，Editor の検索機能を使って，配列の先頭を揃える必要があります．

sh 020command.sh

MAFFT でアライメントを行います．そのあと，trimAl で，unambiguously aligned sites を取り除きます．得られた配列を RAxML で解析します．

RAxML_bipartitions.txt を FigTree で開く．

(2020 年 6 月)