発表・掲載日:2003/11/25

世界中のストレージを統合するグリッド基本ソフトウェア「Gfarm」を無償公開

-国際会議SC2003バンド幅チャレンジコンテストで分散インフラストラクチャ賞受賞-

ポイント

  • 世界中に分散したクラスタ上のストレージを統合し、大規模データ処理を実現するグリッド基本ソフトウェア「Gfarm」を本日よりWeb上で無償公開
  • Gfarm」は、グリッド単一認証技術により複数のPCクラスタ間で安全かつ簡便なリソース共有を実現するとともに、複製管理技術により高い信頼性と高いデータ処理性能を実現
  • 国際会議SC2003会場を含む日米6拠点を接続したグリッド環境上で、236台の計算機を用いて70テラバイトの大容量高速共有ファイルシステムを実現
  • 同国際会議のバンド幅チャレンジコンテストにおいて、高い性能と高い信頼性を実現している点を評価され「分散インフラストラクチャ(基盤技術)賞」を受賞

概要

 独立行政法人 産業技術総合研究所【理事長 吉川 弘之】(以下「産総研」という)グリッド研究センター【センター長 関口 智嗣】は、超大規模データを複数拠点で協調して解析するグリッド技術の方式であるグリッドデータファームの開発に、他の研究機関と協力して取り組んでいます。このたび、国際会議SC2003において、この方式を実現するグリッド基本ソフトウェア「Gfarm」の実証実験に成功しました。

 また、本日「Gfarm ver1.0」を正式リリースし、Webで無償公開を開始しました。

 Gfarmは、ネットワークにつながった世界中のたくさんのストレージを、1つのストレージとして使えるようにするソフトウェアです。全体で1つのファイルシステムを実現するため、ユーザは実際にデータを格納するリソースの配置場所を気にすることなく、超大規模データの処理を行うことができます。管理組織の異なるリソースも、グリッド単一認証技術を用いて、一度の認証で安全に共有できます。

 Gfarmでは、大規模データの処理を世界中に分散させて処理することにより、データアクセスの局所性を利用し高い処理性能を実現します。同じデータの複製を複数の場所に置き、利用者に意識させること無く自動的に近くにあるデータを利用します。このため、プロセッサ台数に応じて性能が向上します。一部の装置が故障したりネットワークが不通になった場合には、他の複製を参照することにより高い信頼性を実現します。

 今回の実験では、米国フェニックスで開催された国際会議SC2003(会期:2003/11/15-2003/11/21)において、日米の6拠点に分散した計236台のパソコンからなるPCクラスタ上に、1つの高速大容量共有ファイルシステム(記憶容量:70TB、テラバイト:1TBは1兆文字、70TBはDVD 1万5千枚)をGfarmにより実現しました。この高速大容量共有ファイルシステム上で1.8TBの大規模データを解析する実証実験を行い、安定した高い性能を確認しました。この分散環境における高い信頼性と性能を実現している点を評価され、同国際会議のバンド幅チャレンジコンテストにおいて「分散インフラストラクチャ(基盤技術)賞」を受賞しました。本成果は、日米の6機関(産総研、高エネルギー加速器研究機構、東京工業大学、筑波大学、APAN東京XP、米国インディアナ大学)が協力し、つくばWANAPANSuperSINETMAFFINからのネットワークサポートを得て構築したグリッド環境上で実現したものです。



実験内容およびグリッド環境

 日米の6機関は共同してグリッド環境上にGfarmの実証環境を構築しました。実証実験では、SC2003会場のPCクラスタ上に新しい超大規模データ(天文観測データおよび量子色力学のシミュレーション結果)が生成されたと仮定し、それを複数のPCクラスタ上で解析する処理を行いました。各拠点のPCクラスタが、生成された超大規模データの複製を生成し、その複製を用いて並列にデータ解析を行いました。本実験では、最終的に各拠点のPCクラスタに約300GB(ギガバイト)の複製を作成し、複数PCクラスタによる合計1.8TBの超大規模データ処理の実証実験を行いました。

 今回のデータグリッド実験では、日本国内の高速広域ネットワークに、つくばWANとSuperSINET、日米間はAPAN / TransPACSuperSINET、米国内は主にAbilene等の高速広域ネットワークおよび会場内のSCinetを利用しました。【図1】に利用したネットワークおよび計算機の接続を示すとともに、本実験で安定して利用できた各ネットワークのデータ転送性能および計算機性能を示します。

 実際のアプリケーションで高い転送性能を実現するためには、単に高性能なネットワークを利用するだけでは不十分で、必要なデータを供給するために高速なファイルアクセス性能を実現することが必要です。Gfarmでは、ネットワーク上に分散したデータに対する処理を、そのデータを保持するリモートシステムに分散し、データアクセスの局所性を最大限に活用します。本実験環境では、合計で13GB/s(DVD 1枚を0.36秒で読み書きする速度)の高速ファイルアクセスを実現しており、これにより高いネットワーク転送性能を可能にしております。

 本実験にあたり、産総研はグリッドデータファームのソフトウェア開発および実証実験環境の調整を、筑波大学は高エネルギー物理学のシミュレーションデータの作成を行いました。また、各参加機関は実証実験に関する議論を重ねるとともに、計算資源、ネットワーク資源、ディスク資源の提供および環境構築を行いました。

本実験で構築したグリッド環境の図
図1 本実験で構築したグリッド環境

今後の予定

 産総研のグリッドデータファームの研究開発は国際標準を先導しております。産総研は他関連研究機関、企業と協力して、グリッド技術の標準化フォーラムGlobal Grid Forum(GGF)にグリッド・ファイルシステムWGの提案をしました。国際標準化により、世界規模のストレージ共有、統合が促進され、Gfarmで実現している大規模データ共有、大規模データ解析が容易に実現されるようになります。

 グリッドデータファームは、(1)年間数PB(ペタバイト)の実験データの解析が必要な素粒子物理学や、(2)天文学における全天多波長の観測データの解析、(3)生命情報学の遺伝子解析などの大規模データ解析だけではなく、(4)電子政府・電子商取引などビジネス分野における高信頼なデータ処理や、(5)データセンターとして地理的に離れた拠点間の高速データ複製による冗長性の確保と負荷分散を行うことができます。大規模データを安全に高い信頼性を持って共有し、高速処理を実現するための基礎技術として非常に有効であり、幅広い産業応用が考えられます。



用語の説明

◆グリッド
次世代インターネット技術として、複数の組織間の計算資源・データベース・実験装置等を、安全かつ動的に共有し、問題を解決するための基盤技術のこと。グリッドは元来、電力網(パワーグリッド)に由来する言葉で、電力網により経済的で安定した電力の供給が可能になり電力というサービスを得られるようになったのと同様に、計算資源、ディスク資源などに対する経済的で安定したアクセスを可能とすることにより計算サービス、データベースサービスなどを安全に得られるようにするための基盤技術である。[参照元へ戻る]
◆グリッドデータファーム
グリッド標準技術に基づき、世界中のストレージを統合して大規模データ処理を実現するための基盤アーキテクチャ。大容量データの安全な共有、高速アクセス、高速データ処理が高信頼に可能になる。Gfarmは、このアーキテクチャを実現するために産総研を中心に開発している基盤ソフトウェアの名称。[参照元へ戻る]
◆SC2003
High-performance networking and computingに関する国際会議(本年は第16回)。毎年米国で開催されている。世界最先端の質の高い研究論文発表と、大規模な企業展示、研究展示が行われ約6000名の参加者がある。[参照元へ戻る]
◆ストレージ
コンピュータ内でデータやプログラムを記憶する装置。大容量で高速な処理が求められている。[参照元へ戻る]
◆リソース
計算機上のディスクやメモリ、計算能力などの資源。[参照元へ戻る]
◆グリッド単一認証技術
パスワードなどによるユーザ認証を一度するだけで、管理組織を越えた計算機など、その他全てのユーザ認証を可能とする技術。その際、パスワードなどの秘密情報はいっさい送信されない。Global Grid Forumにより標準化が進められている。[参照元へ戻る]
◆クラスタ
多数の汎用PCを汎用ネットワークで接続した並列計算機。[参照元へ戻る]
◆GB, TB, PB
GBは10億文字、TBはGBの1000倍(DVD200枚)、PBはTBの1000倍(DVD20万枚)[参照元へ戻る]
◆つくばWAN
筑波研究学都市内の研究機関を超高速(10Gbps)のアクセスリングで結ぶネットワークで、筑波研究学園都市内に点在するスーパーコンピュータ、大規模データベース、高度なシミュレーションソフトウェアを先駆的に活用し、共同研究を行うことを目的としたネットワーク。[参照元へ戻る]
◆APAN
Asia Pacific Advanced Networkの略。アジア地域における先端ネットワーク研究と、高性能ブロードバンドアプリケーションの開発を促進し、アジア地域の重要なバックボーンネットワークの一つとなっている。東京XPは1つのネットワークオペレーションセンター。[参照元へ戻る]
SuperSINET
10Gbpsの光通信技術を用いる学術研究基盤として提供している高速ネットワークで、文部科学省国立情報学研究所が、平成14年1月4日から運用している。[参照元へ戻る]
◆MAFFIN
農林水産省研究ネットワーク(Ministry of Agriculture, Forestry and FIsheries research Network)。[参照元へ戻る]
TransPAC
APAN と米国の高速広域ネットワークを結ぶ日米間の研究ネットワークプロジェクト。NSF(全米科学財団)と文部科学省が推進している。[参照元へ戻る]
Abilene
Internet 2(次世代インターネットの構築を加速することを目的とした、企業・米国政府を含む大学主導のコンソーシアム)をサポートするための高速広域ネットワーク。[参照元へ戻る]
SCinet
国際会議SC2003 の会期中に設置される実験用高速ネットワーク。米国内の主な広域ネットワークと高速に接続している。[参照元へ戻る]
Global Grid Forum
1999年に米国を中心に始まったGrid Forumに、ヨーロッパ、アジア諸国の活動が加わり、2000年11月組織された世界レベルのグリッド技術の標準化団体。[参照元へ戻る]

関連記事


お問い合わせ

お問い合わせフォーム