Vol.2 No.4 2009
41/92

研究論文:循環発展的なプロジェクト構造を生むバイオインフォマティクス戦略(諏訪ほか)−301−Synthesiology Vol.2 No.4(2009)図の総体である。この中から、計算機で遺伝子を同定することは、長大なテキストファイルとして記録されたDNA(デオキシリボ核酸)配列情報から、遺伝子領域の特徴を持つ領域を検出することと同義である。(近年の解釈では遺伝子領域は、タンパク質をコードする領域とともに機能するRNA(リボ核酸)をコードする領域も含め、広い概念を持つが、本論文では、話の都合上それをタンパク質コード領域だけに限る。)多くの場合、真核生物では遺伝子はゲノムのDNA配列上でイントロンと呼ばれる複数の領域で分断される(図2)。この情報が最終的にタンパク質情報になるまでにmRNAに転写され、その後イントロンが切り取られ、分断された側のエクソン領域だけが結合した成熟mRNAになった後、アミノ酸配列に翻訳される。翻訳の際にアミノ酸の一文字に対応する三つ組の塩基の並びをコドンという。コドン単位でDNA配列を順に区切りながら読んでいくときに、その開始点に対応するコドン列が出来るが、開始位置から一つまたは二つ塩基をずらした場合と逆側から読んだ場合も含めて6種類のコドン列が(読み枠)有り得る。計算手法で遺伝子領域を捉えるためには、各読み枠ごとにタンパク質のアミノ酸配列への翻訳を開始する場所のコドン(開始コドン)、終止するコドン(終止コドン)、エクソンとイントロンの境界等の特徴領域の文字列情報を学習してモデル化し、これに良く適合する領域を抽出する。探索する対象がGPCRであれば、遺伝子としての一般的な特徴に加え、GPCRというタンパク質として共通する特徴領域をモデルに採用する。この特徴領域とは、7本の膜貫通へリックスを持つこと、アミノ酸配列のNH2末端側の糖鎖修飾部位、COOH末端側の脂質結合部位、細胞質側の膜貫通へリックス末端にある三つのアミノ酸(Asp、Arg、Tyrの並び(DRY配列))等、機能に関わる短い共通配列(機能モチーフ)や、数十残基の大域的に共通した構造(ドメイン)等である。遺伝子同定に用いるバイオインフォマティクスの要素技術は、上述のような遺伝子の特徴を捉えるプログラム群である。新規遺伝子を間違わずに見つけることに全力を傾けている実験研究者から見れば、ある割合の成功率で予測できるといわれてもまだ利用するのに躊躇されるだろう。予測したものはほぼ全て正しいといえるところまで迫ることが望まれている。そこで極めて高い精度で予測可能にするため、国内外の適切なプログラム群を選定し、各々の性能を評価した。まず、エクソンーイントロン境界をモデル化して既知遺伝子配列をゲノムへ貼り付けるプログラム(ALN[3])と、核酸塩基の出現・遷移確率モデル(隠れマルコフモデル)を遺伝子構造に適用したプログラム(GeneDecoder[4])を評価した。既知の遺伝子のエクソンーイントロン構造が明らかになっている核酸配列領域の学習データから遺伝子領域の最大長を確認し、任意のエクソンから上流、下流側へどれだけ(付加伸展長)広げれば、遺伝子全体領域をカバーできるかという点、あるいは、エクソンを最も精度良く同定するための配列類似スコアを調査した。次に、遺伝子配列候補が実際にGPCRか否かを判別するための道具として、配列検索プログラム(blastp)、GPCR特有のモチーフ帰属プログラム(HMMER[5])、膜貫通ヘリックス領域予測プログラム(SOSUI[6])を評価した。GPCRを選択するパラメータは、blastpではタンパク質配列を検索するときの類似期待値スコア(E−値)、HMMERでは、隠れマルコフモデルで表現した機能モチーフ(Pfam)を検索するときのE−値、SOSUIでは予測へリックスの本数である。タンパク質配列DB(UniProt、 GPCRDB等)中の、既知GPCR配列とGPCR以外の配列を含む学習セットから、正しいGPCR配列を判別するためのパラメータの閾値を、感度(正しいものの中から正しく予測した割合)、選択性(予測した中に含まれる正解の割合)を評価しながら定めて行った。偽陰性 (正しい配列を予測できない場合)の結果を最小限に抑えながら、ほぼ100 %の選択性を達成できる閾値を 「最高選択性閾値」、一方、偽陽性(GPCRとは異なる配列を予測してしまう場合)の結果を最小限に抑えながら、100 %近くの感度を達成できる閾値を「最高感度閾値」と定義した。以上のように、研究の問題解決に必要な基礎知識ともいえる各要素プログラムの特性を“理解”することを目的としたことから、この段階は第1種基礎研究といえる。3.2 遺伝子同定・機能解析パイプライン3.1節の研究を基に、ゲノム配列からGPCR遺伝子を網羅的に同定するシステムを開発した。これは、各要素プ図2 DNA配列上の遺伝子領域の概念図AAAA….相補DNA配列成熟mRNA配列翻訳転写アミノ酸配列DNA配列mRNA 配列遺伝子領域調節領域イントロンイントロン終始コドンTGATAGTAAエクソンエクソン開始エクソン開始コドンATG読み枠DNA213FrameaacgccaggtcATGGGTCAGAATTCGTCGTGA12312312312312312312312312312312GTAG

元のページ 

10秒後に元のページに移動します

※このページを正しく表示するにはFlashPlayer9以上が必要です