Vol.4 No.2 2011
13/66

研究論文:適応学習型汎用認識システム: ARGUS(大津)−79−Synthesiology Vol.4 No.2(2011)行錯誤的)に種々選択されていたのに対して、理論的な基礎から幾何学的不変特徴抽出と統計的判別特徴抽出の2段階構成の枠組みを与え、実用化目標を達成するための基本要請3条件を満たすそれらの具体的な構成要素として、高次局所自己相関と多変量解析を採択しました。その意味では、理論から演繹的に導かれた構成要素ともいえますし、理論と条件を満たす仮説的しかし本質的な構成要素ともいえます。基本要請条件(特にR1とR2)を同時に満たす特徴、しかもモデルベースではない汎用的な特徴としては、実は他にはあまり考えられません。ご指摘のように、局所の特徴だけを見ているので位置不変となるわけではありません。むしろ、「相対的」な関係を自己相関として抽出するので位置不変となるわけです。紙面の都合とも合わせて可能な範囲で説明を補足致しました。議論3 視覚システムの要件質問(赤松 幹之)視覚システムに要請される基本的な条件として、「R1:位置不変性、R2:画面加法性、R3:適応学習性を掲げた」とありますが、これらを掲げた論拠が明記されていませんので、これらの技術開発を選択したシナリオを書いていただけませんでしょうか。幾何学的不変性についても、例えば大きさに対する不変性、傾きに対する不変性、特徴間の位置関係の不変性等、他にも考えられると思います。また、不変特徴抽出において、幾何学的な変換に不変な特徴値が得られる汎関数を追求するとありますが、これは視覚システムを対象としていることから幾何学的な不変性が本質的に重要な性質になると理解してよろしいでしょうか。また、画面加法性については、重なりがある場合には加法性が満たされないことになると思いますが、主に処理時間の観点からの選択でしょうか。回答(大津 展之)ここでの位置不変性とは、平行移動不変性のことです。「カメラと対象物の距離があまり変化しない」という意味ではなく、むしろカメラの向きの変化により対象物が画面枠内での平行移動として幾何学的な変換を受けて位置が変わりますが、そのような基本的な平行移動変換に不変な特徴が認識に本質的ということです。もちろんご指摘のように、他にもそのような不変変換としては大小(スケール)変換や回転等も考えられますが、平行移動(位置)不変性が最も基本的ということです。少し加筆して誤解のないようにいたしました。幾何学的変換に不変な特徴(汎関数)を追求する不変特徴抽出理論は、視覚に限定されるものではなく音声信号等も含めて、パターン一般にいえる普遍な理論です。画面加法性は、重なりがある場合には、ご指摘のように厳密には成り立ちませんが、その場合も含めて、あえて要請しておくことが重要との主張です。これは、ご指摘のように、処理時間の観点からでもありますが、特徴表現が認識(特に計数)にとって都合の良い表現(線形)となり、後の処理が簡単になるための要請条件です。少し説明を補足いたしました。議論4 適応学習の意味質問(上田 完次)“適応学習”という言葉の用法はいくつかありえますが、この論文での意味を明確にしていただけないでしょうか。回答(大津 展之)そもそも、パターン認識では事前に必要な情報は完備されていません。有限個の例が学習サンプルとして与えられるのみで、それに基づき未知サンプル(出来れば無限個)の認識を行います。ご指摘のように、確かに“適応学習”は用語的に多義性があります。まずパターン認識として、認識対象を限定しても、パターンの変動に対する適応ということがあります。これは特徴抽出と学習プロセスに関わるものです。また、この論文でいう適応学習は、さらにメタに、認識課題に対する適応学習という意味でも使っています。モデルベースの学習ですと課題(タスク)が代わるとモデルの入れ替えが必要なのに対して、この方式ではモデルを一切必要とせず構成要素もそのままで、後段の統計的な特徴抽出である多変量解析手法において、例からの学習によって最適に(重みが)構成され課題に適応します。このあたりは、少し分かり易く加筆いたしました。議論5 パターン認識の正答率質問(上田 完次)正答率が100パーセントにならないのはなぜでしょうか。あるいは、どのような場合に100パーセントとなりうるのでしょうか。これまでの研究、他の研究者に比べて優れた結果が得られたということは十分に評価した上で、シンセシオロジー論文としての議論を深めるための質問です。回答(大津 展之)実世界のパターン、例えば音声の「a/i」や画像の「犬/猫」は、多様な変形やノイズを持ち、そこからの特徴(観測)値、例えば周波数や色は一般には確率統計的に分布して、概念は判別的としても裾野は限りなく接近して重複もします。したがって、学習サンプルに対しても正答率100パーセントにならないのが普通です。もちろん、有効な特徴を数多く抽出して統合すればするほど漸近的に100パーセントに近づきますが、コストの点で有限個の特徴抽出に押さえるのが現実的です。費用対効果の問題です。もちろん、簡単な識別問題では100パーセントの正当率になりうる場合はあります。例えば100円玉と10円玉の識別では、それらの特徴値(例えば直径や重さ)は、およそ確定的で異なるので、自動販売機が実用化されているわけです(たまに誤認識もあるようですが)。この論文では、より困難で高度な認識問題への汎用的なアプローチの方式を示しています。議論6 応用事例質問(赤松 幹之)第4章に応用事例が9例述べられていますが、これによって汎用システムであることを主張していると理解します。しかし、これらの例において、共通に使われているのはHLACとCHLACであり、多変量データ解析による判別特徴抽出には、因子分析、重回帰分析、判別分析、kNN識別、主成分分析、ARモデル、正準相関分析等、異なる手法が使われています。それぞれの課題に対してどの手法を使うのが最適なのか等、一部には説明がありますが、タスクに応じた手法の使い分けの基本的な考え方または理論について整理された記述があることを期待します。これによって、読者が持っている課題を解決するためには、どの手法を適用すれば良いかといった読者の理解が進むと思います。回答(大津 展之)ご指摘のように、HLAC/CHLAC特徴を基本初期特徴(不変特徴)として、タスクに応じたそれらの最適統合化法(線形重み和)として種々の多変量解析を用いています。多変量解析に不案内な読者の理解のためには、ご指摘のような配慮も必要と思われますので、紙面の都合から割愛しておりました対応表をつけることにしました。

元のページ 

10秒後に元のページに移動します

※このページを正しく表示するにはFlashPlayer9以上が必要です