井上潤: Gene1

baseml の control file
～multidistribute 解析～

2008 年 5 月 21 日　改訂
井上潤

multidistribute で年代推定を行う際に，パラメータの計算を baseml で行うのに用いる control file (Gene1.ctl として配布されています) の説明です．multidistribute の使い方はこちらをご覧下さい．

seqfile = testseq.Gene1 * sequence data file name

[シーケンスファイル]

outfile = Gene1.out * main result file

[アウトファイル]

treefile = Gene1.tree * tree structure file name

[tree file．phylip 形式ですが，最初の行が junc であっても問題なく読み込まれます]

noisy = 2 * 0,1,2,3: how much rubbish on the screen
verbose = 1 * 1: detailed output, 0: concise output
runmode = 0 * 0: user tree; 1: semi-automatic; 2: automatic
* 3: StepwiseAddition; (4,5):PerturbationNNI

model = 3 * 0:JC69, 1:K80, 2:F81, 3:F84, 4:HKY85, 5:TN93, 6:REV

[モデルを選択します．multidistribute では F84 かあるいは HKY85 は使えますが，それ以上パラメーターの多いモデルは使えません．詳しい引用は忘れてしまいましたが，Yang さんの論文に，これ以上パラメータの多いモデルを使っても，年代推定ではあまり意味がないようなことが書いてありましたが，今後どうなるかはわかりません．BEAST では GTR も使うことができます．]

Mgene = 0 * 0:rates, 1:separate; 2:diff pi, 3:diff kapa, 4:all diff

fix_kappa = 0
kappa = 2 * initial or given kappa

[fix_kappa を 0，kapp (Transition/Transversion ratio) を estimate, 1 で kappa = x の x の値に fix にします．Transition / Transverion ratio が考慮されない JC69 や F81モデル，あるいはより parameter rich な TN93 や REV (GTR のこと) モデルでは fix_kappa や kappa の変更は結果に影響しないようです]

fix_alpha = 0
alpha = 0.6 * initial or given alpha, 0:infinity (constant rate)

[fix_alpha の設定も fix_kappa の設定と同様です．alpha とは，site ごとの rate の変異と頻度が gamma 分布に従うと仮定した場合の，曲線の傾きを示す shape parameter のことです．fix_alpha=1, alpha = 0 で，すべてのサイトが同じ速度で変異していると仮定することになります．]

Malpha = 0 * 1: different alpha's for genes, 0: one alpha
ncatG = 5 * # of categories in the dG, AdG, or nparK models of rates

[ncatG は discrete-ganmma モデルのカテゴリー数を表します．]

fix_rho = 1
rho = 0. * initial or given rho, 0:no correlation
nparK = 0 * rate-class models. 1:rK, 2:rK&fK, 3:rK&MK(1/K), 4:rK&MK

[rho は autodiscrete-gamma モデルの correlation parameter だそうです．]

clock = 0 * 0: no clock, unrooted tree, 1: clock, rooted tree

[clock = 1 にすることにより，rttrate を計算することができます．rtrate を baseml で計算するには，tree file にルートノードの値 (だいたいの年代) を以下のように @ を使って書き込みます．

((a,b),c)'@0.39';

]

nhomo = 1 * 0 & 1: homogeneous, 2: kappa's, 3: N1, 4: N2

[nhomo は塩基組成を推定する際のパラメーターです．nhomo=1 で homogeneous model で，塩基組成を最尤推定します (F84 や GTR など)．nhomo=0 では observed frequency の平均です．model と nhomo が一致していないと，エラーメッセージで教えてくれます]

getSE = 1 * 0: don't want them, 1: want S.E.s of estimates
RateAncestor = 0 * (1/0): rates (alpha>0) or ancestral states (alpha=0)
cleandata = 0 * remove sites with ambiguity data (1:yes, 0:no)?

[cleandata =1 で，ATGC 以外の N や ?, W, R やギャップを解析から取り除きます．解析速度が速くなるようです]