PRANK

2011 年 3 月 15 日 改訂
井上 潤

PRANK は塩基配列やアミノ酸配列をアライメントするプログラムです.こちらにも説明があります.基本的にコマンドラインの解析ですが,グラフィカルなソフトも配布されています.web version もあります.

インストール
「Download」の段落,

The PRANK source code and precompiled binaries can be downloaded from here.

にある here をクリックします.prank/ フォルダに入ると,

prank.osx_1058.091016.tgz

があるので,Mac の場合はこれをダウンロードしてください.

Mac version はダウンロードして解凍すると,prank というアプリケーションのみが作成されます.HP には src フォルダーに入ってコンパイルするように書いてありますが,その必要なないようです [2009 年 10 月].

使い方
マニュアル

PDF では配られていないようです.website を見るか,prank をダウンロード・解凍したあとに,「prank -help」と入力して得られる説明を参照してください.



必要最低限のコマンド
以下のコマンドを入力してください.

prank infile

infile : マニュアルには何も書いてありませんが,fasta 形式で読み込みました.


オプションを用いたコマンド - アミノ酸配列の解析

prank -o=outfile -fixedbranches=0.1 -t=Mam28.tre -nopost -d=infile.fas

infile.fas:

ファスタ形式のインファイル.

outfile:

アウトファイル.

Mam28.tre:

newick 形式の tree file.数字を一行目に書きません.アライメントされた配列は,系統樹の順番に種が並べられています.

-fixedbranches:

樹長が極端に短い場合は,default で解析すると「Branch length <0.0001. Set to 0.0001.」というエラーメッセージがでます.この場合に,-fixedbranches をつけた方が良いということです.Loytynoja さんは 0.1 を使っていました.-fixedbranches = 0.1 としたら,mafft と同じような結果が得られました.これを付けないときは,mafft とずいぶん異なるアライメント結果が得られていました.

-nopost:

posterior support を計算しないらしいです.よくわかりませんが,Loytynoja さんはこれを付けて解析していました.解析時間は 90s であったものが 60s になったので,かなり速くなったようです.

AA.tar.gz


オプションを用いたコマンド - cDNA 配列の解析

prank -o=outNoto5 -fixedbranches=0.1 -t=Noto5spp.tre -nopost -d=Noto5spp.fas -translate

-Noto5spp.fas

ファスタ形式の cDNA ファイル.おそらく 1st codon position から始まるようにそろえる必要があると思います.

-translate

タンパク質コーディング領域の DNA 配列は,アミノ酸配列に翻訳してアライメントが行われます.アミノ酸と DNA 配列両方のアライメント配列が得られます.

ミトコンドリアゲノムにコードされている遺伝子配列でも解析は可能です (実際に下の例題は ND5 遺伝子配列です).しかし,アウトプットとして得られるアミノ酸配列の翻訳がおかしいので,cDNA アライメントファイルを改めて翻訳し直す必要があります.

cDNAprank_fol.tar.gz


気づいた点
  • Registration のメールアドレスは,Ari Loytynoja さんのものです.質問をしたところ,すぐに丁寧なお返事をいただきました.

  • デフォルトで 33 OTU, 250 残基のアミノ酸配列をアライメントしたところ,5 分ほどかかりました.大量のデータを処理する場合は,オプションを用いてスピードアップをはかる必要がありそうです.guide tree があると,確かに解析がかなり速くなりました.3 倍以上でしょうか.

  • outputs file に出力される OTU の番号は,guide tree の順番になります.infile と同じように出力することはできないそうです.Perl script を書けば簡単にできるでしょう,という返答をいただきました.私の作成したスクリプトが参考になるかもしれません.こちらです.

  • 解析の速度は塩基配列が最も速く,次いでタンパク質,コドンの順番だそうです.A をサイズとすると (DNA は 4,アミノ酸は 20),A^2 だけ時間がかかるそうです.