イネの遺伝子数は約32,000と推定そのうち、29,550の遺伝子の位置を決定し、情報を公開

概要

　独立行政法人農業生物資源研究所は、独立行政法人産業技術総合研究所および大学共同利用機関法人情報・システム研究機構国立遺伝学研究所との3機関を中心とした国際共同プロジェクトRice Annotation Project（通称RAP）で、単子葉植物であるイネのゲノム全塩基配列上に存在する29,550の遺伝子の位置を決定し、これをもとにイネの遺伝子数は約32,000個と推定しました。この数は、かつて約50,000個とも予想された数よりも小さく、ゲノムサイズがイネの約3分の1であるシロイヌナズナ（双子葉植物）の26,000～27,000個に比べても極端に大きなものでないことを示しています。

　また、イネゲノム上の遺伝子のうち28,540がタンパク質をつくる遺伝子である可能性を明らかにするとともに、それらのタンパク質の機能をコンピューターによる情報解析と専門家のデータ精査で推定した結果、19,969（およそ70%）の遺伝子の機能を説明することができました。これらの情報は、データベースとして公開しています（http://rapdb.dna.affrc.go.jp/ および~~http://rapdb.lab.nig.ac.jp/~~）。

　イネのゲノム塩基配列については、2004年12月に全塩基配列の完全解読が終了していますが、ゲノム塩基配列自体は4種類の塩基ATGCの羅列に過ぎません。今後の研究を進めるためには、ゲノム塩基配列上のどこにどのような遺伝子があるかという生物学的情報を明らかにする必要がありました。今回の成果は、今後のイネ研究の促進に大きく貢献するものと期待されます。

　なお、上記国際共同プロジェクトは文部科学省科学技術振興調整費の支援をえて実行されており、この成果は、米科学誌Genome Research（ゲノム・リサーチ）誌上に発表される予定で、先行して1月9日午前7時（日本時間）にオンライン版で公開されます。

研究の背景

　イネ（日本晴）ゲノムの全塩基配列解読プロジェクトは10の国と地域が参加した国際共同計画であり、1997年度に開始された。独立行政法人農業生物資源研究所（生物研）はこのプロジェクトの中心的役割を果たし、我が国の主要な科学政策の一つとして遂行された。2004年12月にはイネゲノムの全塩基配列の完全解読が宣言され、2005年8月にNature誌上で論文が発表された（注1）。しかし、ゲノム塩基配列自体は４種類の塩基ATGCの羅列に過ぎず、今後の研究を進めるためには、ゲノム塩基配列上のどこにどのような遺伝子があるかという生物学的情報を明らかにしなければならない。この配列上に生物学的情報を付与することをアノテーションと呼び、これはゲノム情報を有効に活用するために必須の作業である。

　イネのように膨大なゲノム塩基配列（約3億9千万塩基）に対して完全なアノテーションを行うためには世界中の研究者が協力する必要があり、国際的な合意の下で協調体制を築き推進することが望まれた。そこで生物研は、独立行政法人産業技術総合研究所（産総研）、大学共同利用機関法人情報・システム研究機構国立遺伝学研究所（遺伝研）と共同で、イネのゲノム塩基配列を情報解析するための国際共同プロジェクト（Rice Annotation Project、通称RAP）を組織した。本プロジェクトは12の国と地域、計35研究機関の協力の下に遂行され、イネゲノム全塩基配列解読プロジェクトのメンバーであるアジア諸国（日本、中国、台湾、インド、タイ）、米国、フランスの研究者に加えて、生物情報解析に豊富な経験を有する3大国際塩基配列データベース（遺伝研の日本DNAデータバンク、欧州バイオインフォマティクス研究所のEMBL、米国立バイオテクノロジー情報センターのGenBank）などの専門家により構成されている。なお、上記国際共同プロジェクトは文部科学省科学技術振興調整費の支援を得て実行されている。

研究内容の詳細

　全塩基配列の決定は極めて重要な開始点であるが、塩基配列そのものは4種類の塩基の羅列であって、生命現象を解明し理解するためには、配列中に含まれる遺伝情報の機能を明らかにしなければならない。すなわち、生物学的な研究のためには、塩基配列のどの部分がどのような役割を担っているかを明らかにするアノテーションと呼ばれる作業が欠かせない。一方、生物研では確かな遺伝子の存在の証拠である完全長cDNAの配列を大量に決定してきている（注2）。そこで本研究では、正確かつ確実な遺伝子座の決定のためこれら完全長cDNAを最大限活用し、ゲノムと cDNAの塩基配列を比較する大規模計算を行い、イネの遺伝子座の詳細な確定を行った。

　今般、我々はイネゲノム全塩基配列上の遺伝子の位置の確定を行い、29,550の遺伝子の位置を決定し、このうち28,540がタンパク質の遺伝子である可能性があることを明らかにした。通常、決定された遺伝子に対しては、多くの場合、コンピューターを利用した自動処理によって既存配列との比較を行い、機能情報を付与している。ただし自動処理は頻繁に不正確な情報も含むため、信頼性の高いデータベース構築のためには、専門的知識を持ったものが修正を行うキュレーションという作業が必須となる。しかし、イネゲノム全塩基配列のように膨大な数の遺伝子を含む場合は検証すべきデータもまた膨大になる。そのため、イネやデータベース構築に関して専門的知識を持った研究者を集結し、短期間で一度にキュレーションを確定するための国際会議を企画した。この「イネアノテーション会議」は2004年12月、農林水産研究計算センター電農館（つくば市）で開催され、国内外の研究者約90名が参加した。この会議ではキュレーションを実行すると共に、アノテーションに関連してイネ遺伝子のIDの書式を決めるなど様々な議論を行い、上記のイネ遺伝子のうち、19,969（およそ70%）の遺伝子の機能を詳述することができた。これらの成果は全て、今後のイネ研究の発展に最大限資するべく、イネアノテーション計画データベース（RAP-DB）として以下のURLから既に公開している。http://rapdb.dna.affrc.go.jp/及び~~http://rapdb.lab.nig.ac.jp/~~。

　イネの遺伝子数は、ゲノム配列決定の初期の段階では約50,000と予想されていた。この数は、双子葉植物の代表的研究材料であるシロイヌナズナの26,541という遺伝子数（注3）と比べて約2倍と非常に多い。このことから、単子葉植物のイネでは特異的遺伝子が多数ある可能性が指摘されていたが、一方では初期の遺伝子数推定はコンピューターによる予測に依存する点が多く、誤りがある可能性も指摘されていた。そこで今回、cDNAの遺伝子情報を活用してあらためて調べたところ、確実な遺伝子の数は29,550で、その遺伝子座も決定できた。しかし、cDNAを実験的に全て捕捉することは不可能であり、この点を考慮して真の遺伝子数を見積もったところ、約32,000個程度と推定された。また、この数値は非翻訳RNA遺伝子を含んでいる（非翻訳RNAの有力な候補だけに絞っても131個見つかっている）ので、タンパク質の遺伝子はさらに少ないと考えられる。従って、シロイヌナズナと比べて極端に遺伝子が多いわけではないと考えられる。一方で、イネ属にしか類似する配列が見出せず、系統特異的と考えられる遺伝子も5,663個発見された。これらの遺伝子がイネでどのような機能を担っているかは大変に興味ある問題であり、今後の機能解析が待たれる。

注1：http://www.nature.com/nature/journal/v436/n7052/abs/nature03895.html
注2：http://www.sciencemag.org/cgi/content/abstract/301/5631/376
注3：TAIR（http://www.arabidopsis.org/）で公開されたデータより。

今後の展開

　今回大量に確定されたイネの遺伝子は、情報解析によってかなりの機能推定が行えたとはいえ、更なる実験による検証を必要としている。幸い、生物研を始めとして世界各国の研究機関でイネ遺伝子機能解析のためのイネ研究資源の整備が進んでおり、特に遺伝子破壊株の大量作成はこの目的達成に有力な手段を与えている。今回公開するアノテーションデータ（順次新データを追加中）では、遺伝子破壊株の遺伝子がどのように破壊され、またその研究資源がどこから入手可能かという情報も含んでおり、機能解析に向けた情報基盤となることは疑いない。イネのゲノム情報は、イネのみでなく近縁の主要なイネ科穀類の研究にとって貴重な研究資源となるスタンダードというべきものである。実際、ムギ類やトウモロコシでもゲノム配列決定並びに完全長cDNA配列決定計画が国際的に実行されており、これら穀類塩基配列のアノテーションはイネに倣って実行されることになる。今回公開するアノテーションデータや、アノテーション作成の技術が他の種に応用されることが期待される。

公開されているイネゲノム　アノテーションの一部

用語の説明

◆cDNA: 相補的DNA（complementary DNA）。タンパク質のアミノ酸配列はDNAの配列に依存して決められるが、DNA配列は一旦リボ核酸（mRNA）に写し取られてからアミノ酸配列に対応付けられる。このmRNAの配列を元にして人工的に合成されるDNAがcDNAである。タンパク質の遺伝子の直接的証拠であると同時に、実験室での取り扱いがRNAに比べて容易である。[参照元へ戻る]
◆アノテーション: 解読された塩基配列などの生データに対し、生物学的に意味のある情報を付与すること。特に、遺伝子の領域を確定しその機能に関する記載を与えることを指す場合が多い。大量の情報を解析するため、しばしばコンピューターによる処理が必要となる。[参照元へ戻る]
◆完全長cDNA: cDNAのうち、特に全長を網羅したもの。一般に、cDNAは必ずしも対応するRNAの全長をカバーしていない。正確な遺伝子領域の同定と実験的検証には完全長cDNAが必須になる。[参照元へ戻る]
◆ゲノム: ある生物が持つ全遺伝情報の一組。実体はデオキシリボ核酸（DNA）であり、塩基の異なる4種類のヌクレオチドの重合体である。この4種類の塩基の並び（配列）によって遺伝情報が決定される。イネでは約3億9千万塩基もの長さがある。[参照元へ戻る]
◆全塩基配列解読: 塩基配列は、専用の装置を用いてどのような順番でヌクレオチドが並んでいるかを明らかにすることにより決定できるが、一度に読める長さは限られている。そこでDNAを予め短く切断し、個別に解読した塩基配列をコンピューター上で再結合することにより、全塩基配列を再現する。イネでは2004年に解読が宣言された。[参照元へ戻る]
◆タンパク質コード遺伝子: タンパク質は細胞生物を構成する主要な要素であり、そのアミノ酸配列の情報はDNAの配列として保存されている。生物の仕組みとしては、DNAから一旦RNAに配列を写し取り、その後RNAからアミノ酸配列に変換される。このようなアミノ酸の情報を含む遺伝子がタンパク質コード遺伝子である。
◆非翻訳RNA遺伝子: 非コードRNA遺伝子（noncoding RNA gene）。遺伝子の中にはアミノ酸配列をコードせず、RNAのまま直接機能するものがあり、非翻訳RNA遺伝子と呼ばれる。近年、このようなRNA遺伝子が予想外に多くあり、また重要な機能を果たしているのではないかと考えられている。[参照元へ戻る]

お問い合わせ

お問い合わせフォーム

イネの遺伝子数は約32,000と推定 そのうち、29,550の遺伝子の位置を決定し、情報を公開