Vol.2 No.4 2009
42/92

研究論文:循環発展的なプロジェクト構造を生むバイオインフォマティクス戦略(諏訪ほか)−302−Synthesiology Vol.2 No.4(2009)ログラムを、入力から出力を生じるパイプとみなし、各パイプを段階的に最適な閾値や順番でつなぎ合わせたもの(SEVENSパイプライン:図3)であり、ゲノム配列からタンパク質コード領域を抽出し(遺伝子発見段階)、これらの中からGPCR遺伝子候補を確定させ(GPCR遺伝子精密化段階)、機能・構造情報を付加する(機能解析段階)という各段階からなる。この部分は、各要素プログラムを組み合わせてシステム化し、その結果としての制御を試みるという観点なので、第2種基礎研究といえる。1)遺伝子発見段階ゲノムのDNA配列を6つの読み枠ごとにスキャンし、それに対応するコドンをアミノ酸配列に翻訳しながら、既知GPCRのアミノ酸配列と一定の類似スコア以上で合致する断片領域(エクソン領域に相当)を全てリスト化する(tblastn プログラム)。これで遺伝子が存在する領域が絞られるので、ALN[3]により、その上流、下流1,000塩基まで探索領域を広げながら既知の配列に相当した全長遺伝子を構成する。この他にも、遺伝子領域を確率モデル化したGeneDecoder[4]により得られた配列も同時に用意した。このため複数の配列が完全一致か部分一致で重なる領域が出てくるが、有意な重複がある部分をつなげながら最長になるアミノ酸配列を決定する。2)GPCR遺伝子精密化段階決定したアミノ酸配列を順次、配列検索プログラム(blastp)、機能モチーフ同定プログラム(HMMER[5])、膜貫通ヘリックス予測プログラム(SOSUI[6])に流していく(図3)。3.1節でプログラム毎に決定した最高選択性閾値と最高感度閾値を組合せ、様々な検出選択性と感度で得られるデータセットを作成できる。多少の擬陽性(誤予測)を許しても、GPCRを全て漏れなく抽出したいなら、blastp、HMMER、SOSUIの最高感度閾値(各々E値<10−30、E値<10−1、予測本数範囲6~8本)で得られる出力の和集合を求める。これは学習セットに対して20.4 %の選択性ながら100 %の感度を示す(レベルD)。一方、最も精密なデータセット(レベルA)は、blastとHMMERの最高選択性閾値(各々E値<10−80、E値<10−10)による出力の和集合となる。これは学習セットに対し99.4 %の感度と96.6 %の選択性を示す。また、この二つレベルの間に中間的存在としてレベルB(感度99.8 %、選択性70 %)、レベルC(感度99.9 %、選択性48.4 %)のデータセットを作成した。最後に、データセットをGPCR以外の配列データに照合し、間違って予測した配列は除去する。3)機能解析段階同定したGPCR配列で、互いにE値<10−30で関連付けられる配列同士をグループ化し、各々を既知のファミリーに帰属させる。既知GPCR配列に対し100残基以上96 %以上の類似度で整列できる配列は既知配列と同一とし、それ以外の配列を新規配列とみなした。またエクソン領域に終始コドンが含まれていれば、偽遺伝子とする。各々の配列には、GPCR遺伝子精密化段階で行った解析を基に、染色体上の座標、エクソン数、配列長、配列検索情報、膜貫通へリックス領域、機能モチーフ領域、ドメイン領域等の機能・構造情報を付加する。3.3 プロジェクトのアウトプットヒトゲノムから全てのGPCRを同定し終えた段階では、配列セットのレベル(A, B, C, D)に従って827、1300、1517、2109配列を得た。配列が多いセットほど擬陽性(正図3 SEVENS−パイプラインゲノム配列からGPCR遺伝子を網羅的に同定するために段階的に様々なツールを最適な閾値、順番で組合せた解析パイプライン。・ GPCR遺伝子精密化 段階・ 機能解析段階遺伝子発見段階非GPCR配列DBk=0K < Nk=k+1GPCR 遺伝子YesNoNoYes開始終了膜貫通へリックス予測(プログラム:SOSUI)配列検索(プログラム:blastp)GPCR以外の配列を除去GPCR 特異モチーフ検索(プログラム:HMMER)遺伝子候補遺伝子の再構成(プログラム:ALN)遺伝子領域の上流・下流へ伸展(伸展長ΔL)既知GPCR配列の長さが全てカバーされた?遺伝子候補領域ゲノム配列上への貼り付け(プログラム:tblastn)既知のGPCR配列(N本)ゲノム配列

元のページ 

10秒後に元のページに移動します

※このページを正しく表示するにはFlashPlayer9以上が必要です