NOVOPlasty

2020 年 6 月 13 日 改訂

NOVOPlasty はミトコンドリアや葉緑体ゲノム専用のアセンブラです.

・perl.このためコンパイルは不要.
・高速.うまく行けば数分で終わる.もちろん reads 数によると思うが,10 分ぐらいで終わる.
・シード配列を用いる.
・次世代シーケンサーから得られたペアードエンドの生データを解析.
・Filter や quality trim などの操作をデータに施さない.
・他のアセンブラよりも速い (Dierckxsens et al. 16).
・常に異なる K-mer を試す.Coverage が低い場合や reads が 90bp 以下の場合は,低い K-mer 25-39 を試す.Reads が 101bp より長い場合は,K-mer 値を増やしても良い.
・30X 程度の coverage を推奨.Coverage が大きすぎると,スピードが遅くなる.それだけメモリも必要.


インファイル

ヒトデ類のミトコンドリアゲノム解析の例です.

Project name = test_S1_L001
Insert size = 300
Insert size auto = yes
Read Length = 300
Type = mito
Genome range = 15000-17000
K-mer = 39
Insert range = 1.6
Insert range strict = 1.2
Paired/Single = PE
Max memory =
Extended log = 0
Save assembled reads = no
Combined reads =
Forward reads = /Adress/test_L001_R1_001.fastq
Reverse reads = /Addres/test_L001_R2_001.fastq
Seed Input = /queryOkiPheStart.txt
Reference sequence =
Chloroplast sequence =

上記ファイルを test_config.txt として保存し,以下のコマンドで走らせます.

NOVOPlasty2.6.3.pl -c pompei-cot-pe-18_S1_L001_config.txt


アウトファイル

脊椎動物のミトコンドリアゲノムなどでは,MitoAnnotator でアノテーションすると良いと思います.ヒトデ類などでも,だいたいうまくアノテーションされます.

Circularized_assembly_1_*.fasta

良い結果が出たら,アセンブルされた全ミトコンドリアゲノム遺伝子配列が,このファイルに保存されます.良い結果が得られなかった場合,このファイルは作成されません.

Merged_contigs_*.txt

上記,Circularized_assembly_1_*.fasta が作成されない場合,まずこちらのファイルにあるデータを見ます.

Contigs_1_*.fast

このファイルに保存される contig が使える場合もあります.


系統解析へのパイプライン
Novoplasty_mtGenomePopulation.tar.gz
解析には,MAFFT, TrimAl, RAxML が必要です.

python3 010collectSeq.py

得られた結果は 010out.txt に保存されます.普通,010out.txt に並べられた mtGenome 配列 (環状) の先頭は,揃っていません.このため,Editor の検索機能を使って,配列の先頭を揃える必要があります.

sh 020command.sh
MAFFT でアライメントを行います.そのあと,trimAl で,unambiguously aligned sites を取り除きます.得られた配列を RAxML で解析します.

RAxML_bipartitions.txt を FigTree で開く.

(2020 年 6 月)