ヒトゲノムの塩基配列もほぼ明らかになり、塩基配列そのものの情報解析よりも、生物種間の比較ゲノムや医学応用を目指すSNP解析など、配列の多様性と生命現象の関係を解明するための研究が注目されるようになってきた。しかし、様々な生物種で決定されるゲノム塩基配列は増え続けており、自動的な遺伝子発見の重要性はむしろ増大している。
通常のゲノムプロジェクトでは、既知遺伝子との類似性の検索、cDNAのゲノムへの貼り付け、統計情報に基づく予測(ab initio法)は自動的に行われるものの、それらを統合した遺伝子領域の決定は手作業で行われている。我々はその自動化を目指し、開発中の多重出力HMM(隠れマルコフモデル)によるab initio遺伝子領域予測システムGeneDecoderに改良を加え、類似性検索の結果・ESTの情報を統計情報と自動的に統合して遺伝子発見を行うシステムを開発した。
類似性検索結果の統合では、BLASTによる類似性検索の結果のスコアと、コード領域の統計的スコアから、新たなスコアを算出している。cDNAは、エキソン・イントロンの境界(スプライス位置)で分断されて張り付く場合が多い。遺伝子のおおよその位置は判明するが、コード領域の正確な位置、タンパク質に翻訳される3文字単位の位置(読み枠)などは曖昧なままである。GeneDecoderでは、cDNA貼り付け結果を矛盾するスプライス位置の統計的スコアを低くし、cDNA情報と整合性のあるエキソン・イントロン構造の予測を自動的に行うことに成功した。
GeneDecoderは、ヒトGPCR遺伝子の網羅的発見と解析1)で用いられた他、遺伝子情報表示システムGuppy2)、後藤修氏による遺伝子構造予測システム3)とともに麹菌ゲノムプロジェクトの遺伝子発見とアノテーションに用いられている。また、ウェブサービス4)も行っている。
本プロジェクトは産業科学技術研究開発制度「ゲノムインフォマティクス」の支援を受けている。
![]() |
|
図1 真核生物遺伝子領域予測システムGeneDecoder
|
![]() |
|
図2 多重出力HMMによるcDNA情報の遺伝子領域予測への統合
|
|
|
関連情報
|
|
|
|
|
|
































