Vol.4 No.1 2011
32/74

研究論文:有機化合物のスペクトルデータベースの開発と公開サービス(齋藤ほか)−29−Synthesiology Vol.4 No.1(2011)3 収集するデータの選択3.1 化合物の選択の戦略このデータベースは、広い分野で化合物同定等の分析に利用することを念頭に構築したものであるため、多くの人が頻繁に使用する市販試薬を中心にスペクトルデータを収集することとした。ウェブで公開しているデータ数は図1に示したが、公開にいたらなかったスペクトルデータも数多くあり、測定に供した化合物は試薬瓶でのべ39,000本以上になる。このうち、10,000本以上の試薬は東京化成工業株式会社から無償で提供されたものであり、収集した試薬数のうちでは、同社から提供されたものが最も多い。したがって、試薬選定は同社の新規試薬開発方針に沿った部分があるが、それは間接的にユーザーの現行のニーズを反映したものといえる。研究開発現場で化学合成等を行って種々の化合物を調製する場合も、その原料は市販試薬であることが多く、化学工業における基盤的な試薬を同社から多く入手することができたことは貴重な支援であった。2001年以降はこれとは別に農薬や劇物を中心にした化合物のスペクトル収集を開始した。すなわち法規制があるもの等危険物のスペクトル情報を多く収集し発信することは公的研究機関の重要な役割であり、最近まで徐々にその数を増やしている。食の安全への関心も高まっており、その後も農薬等重点的に収集する化合物を選択する戦略は重要と考えている。3.2 データ形態(デジタルデータ)選択の先見性データ収集の形態にかかわる最も重要な選択が開発当初に行われた。それは今となっては当然のことであるが、このデータベースはすべての情報が座標データとしてコンピュータ上でデジタル化して収録されたことである。1970年代にはスペクトルデータ集として冊子体のデータ集が活用されていた。測定データはデジタル化により取り扱いが容易になることは認識されていたが、コンピュータの容量の制限等からデジタル化によって情報の一部が失われる等の問題もあり、紙媒体等に記録するアナログデータの取り扱いが主流であった[1]。データのデジタル化には、NMRの測定を例にとると、その当時でも一つのスペクトル当たり数万のデータポイントで構成されており、30年前のコンピュータのディスクやメモリ容量等の条件を考えると、デジタルデータでのデータベース化は大きな決断だったはずである。当時の工業技術院の大型コンピュータがなければ実現がむずかしかったと考えられる。このような条件では、個々のスペクトルの測定だけでなく、それをデータベース化するためには多くの困難があり、収録するデータ量を最小限に抑える工夫を合わせて行うことで実現できた。実際に、1H NMR のスペクトルパターンの座標データをデジタル化して収録したのは世界初[8]であり、取得したデータの必要な部分のみを切り出して収録する方法を取ることでデータ容量を圧縮した。13C NMRの測定データは、ピーク値を規格化した強度と半値幅の値を収録し、ピーク形状をローレンツ関数で仮定してシミュレートして表示した。IRとRamanは得られたスペクトルの各点の座標データを収録し、MSは質量数とその強度を収録した。ESRもスペクトルをデジタル化したが、論文のデータをカーブリーダで読み取って、座標をデジタル化したものもあった。1H NMRには、化学シフトとスピン結合定数を利用したスペクトルシミュレーション機能を備えた[9]。産総研になってからは、NMRは13C NMRも1H NMRも不純物由来のピークやノイズを含めたすべてのデジタルデータをスペクトルデータとして収録したことで、ユーザーはピークの信号強度やその時のノイズレベルまで確認することができるようになった。1997年に旧工業技術院からウェブ公開を行ったことはすでに述べたが、開発当初にもしもスペクトルのデジタルデータを収録していなければ、予想されるスペクトルデータのデジタル化に対して、アナログ収録した化合物に対しては再測定せざるを得ない状況になったと思われる。3.3 質と量のバランスにおける高品質へのこだわりこのデータベースのスペクトルデータは、ESRと1H NMRの一部に論文の情報から作成したスペクトル情報があるのを除き、開発当初からすべて当所で測定、評価したデータを収集する方式をとった。すべてのスペクトルデータに対して、品質に責任を持って公開していくためにはこの方式が最も信頼性が高い方法である。この方式は、公開するデータの品質の確実性に利点がある一方、公開できるデータ量は限られてしまう。多くのスペクトルデータを公開すること、すなわち網羅性を高めることはデータベースの重要な要素の一つである。この質と量という異なる二つの価値をどのように調和させていくか、また、データベースをこれら二つの価値軸のどの位置に設定するか、データベースの存在意義にもかかわる大きな問題である。このデータベースではまず標準データとして一定の質を確保し、その上で時間をかけて量的な要求に応えるという方針をとった。データベース構築に当たってスペクトルデータの信頼性確保のために評価基準を定めたが、その例を以下に示す。1H NMRではテトラメチルシラン(TMS)を化学シフトの基準として利用するだけでなく、スペクトルの分解能の判断基準にも利用した。TMSのピークが尖鋭化していれば、化合物のピークの分解能が悪く見えても、それは測定の不備のためではなく、その試料が示す特性であると判断できる。IRスペクトルの場合には干渉ノイズが無いことや水ピー

元のページ 

10秒後に元のページに移動します

※このページを正しく表示するにはFlashPlayer9以上が必要です