人および動作の認識方式で世界最高性能を達成

－コンピュータビジョンによる無人監視・認識技術の実用化へ大きな前進－

ポイント

犯罪やテロの増加に伴いビデオサーベイランス（映像監視・自動認識技術）の研究開発が盛んであるが、これまでの方式では実用に足る「人およびその動作」の認識性能が得られていない
モニター動画像から個人を識別し、異常行動を直ちに検出する世界最高性能の方式を開発
特定した人を自動追跡する知的防犯カメラ、ロボット視覚など、コンピュータビジョンの実用化に道を拓く

概要

　独立行政法人産業技術総合研究所【理事長吉川弘之】（以下「産総研」という）のフェロー大津展之（東京大学特任教授兼任）は、防犯カメラなどで自動監視・認識するうえで、最も重要な鍵である「モニター映像から人およびその動作の認識を自動的に行う」新方式を開発した。これは、これまでに、2次元静止画像に対して開発した高次局所自己相関特徴抽出法（以下「HLAC」という）を用いた適応学習型認識方式を、さらに動画像に拡張し、立体HLAC（以下「CHLAC」という）に基づき、「対象の動作」の特徴を抽出する方法であり、非常に汎用的でかつ高速・高精度であることが特徴である（一部、兼任先の東京大学大学院情報理工学系研究科での学生指導で実施）。

　新方式CHLACはモニター動画像から個人を識別し、異常行動を直ちに検出することができる。本方式を、米国の HumanIDプログラムの一環として米国立標準技術研究所（NIST）が取り纏めている国際的な gait認識のコンペティションのためのテストデータ（HumanID Gait Challenge Dataset）に対して適用した結果、従来手法を大幅に上回る世界最高の認識性能であることが実証された。

　新方式CHLACは、人の認識のみならず、異常行動の検出や、特定した人を追跡する移動体追跡にも適用できるため、ニーズの高い知的防犯カメラなど、セキュリティ分野における自動（無人）ビデオサーベイランスの研究開発を始め、ロボット視覚など、コンピュータビジョンの研究開発にも大きく貢献すると期待される。

　今後は、文部科学省の「都市エリア産学官連携促進事業（高度ビデオサーベイランス）」、「科学技術振興調整費・重要課題解決型研究等の推進（交通事故対策技術）」、「21世紀COEプログラム（情報科学技術戦略コア（東京大学大学院情報理工学系研究科の採択テーマ））」に適用し、本方式の実用化に向けた研究開発や、対話システム、ロボットなどの「実世界情報システム」分野における視覚への応用を行っていく予定である。

　なお、本研究成果の詳細については、MVA2005（IAPR Conference on Machine Vision Applications(2005年5月16～18日、茨城県つくば市)）で発表された他、ICCV2005（Tenth IEEE International Conference on Computer Vision(2005年10月15～21日、中国北京)）において発表される予定である。

図　人の異常行動の検出例（ここでは歩くことが正常、転ぶが異常）

研究の背景

　犯罪やテロの増加に伴い、監視カメラによるビデオサーベイランスの研究が盛んである。特に、監視カメラの知能化のためには、映像中の人および動作の認識や異常行動の検出を自動的に行う技術が重要であり、実用化のニーズは極めて高い。しかしながら、従来の手法では実用に足る認識性能が得られていなかった。

　従来手法の殆どは、まず動画から個々の動く物体を切り出し、あらかじめ用意したモデルに照らして対象とする人の認識や動作特徴の抽出を行う手法であり、精度に限界があって計算量も膨大である。また、人の動作の特徴抽出手法としてはオプティカルフロー方式が主流であるが、前提条件の成立が厳しく、しかもノイズに弱い等の理由から実用化には至っていない。

研究の経緯

　これに対して大津らは、これまでに、「統計的特徴抽出」の理論的な視点から、2次元静止画像に対して非常に汎用的な高次局所自己相関特徴抽出法（HLAC）を適用して、学習適応能力を有する画像認識方式の開発を行っており、これは平成3年に科学技術庁より第50回注目発明に選定されている。

　今回、これをさらに動画像に拡張した立体HLACに基づく汎用的で高速・高精度な「対象の動作」の特徴を抽出する技術（CHLAC）の開発に成功した（特許出願済み）。

研究の内容

　動画像は、2次元静止画像が時間に沿って並んだ3次元（立体）の数値データである。これらのデータから、特定の対象、例えば歩く人を認識し計測するためには、歩く人の空間における位置情報に依存しない特徴抽出が望ましい。これを位置不変性という。立体内に複数個の対象がある場合、全体の特徴値がそれぞれ個別対象の特徴値の和になる加法性を持つと、以後の処理が容易となり、認識精度が向上する。さらに特徴抽出方法としては計算量が少なくリアルタイム処理が可能であることが望ましい。

　HLACおよびCHLACによる特徴抽出方式は、正にこれらの要請を全て満たす基本的で汎用的な特徴抽出方式となっており、この抽出データと統計的な情報統合手法を組み合わせることにより、動画像からの適応学習型汎用物体認識方式が得られるようになった。

　このCHLACによる認識性能は、米国のHumanIDプログラムの一環として、米国立標準技術研究所（NIST）が取り纏めているgait認識の国際的なコンペティションのためのテストデータ（HumanID Gait Challenge Dataset：gaitから71人を識別する）に対して、従来手法を大幅に上回る世界最高性能であることが実証された。【図１】を見ると産総研のCHLACは、特に難しい問題に対して従来手法よりも抜群の認識率をあげていることが分かる。

図１　国際コンペティションGait認識テストデータにおける従来手法との比較
産総研のCHLACは特に難しい問題に対して抜群の認識率をあげていることが分かる。

　今回開発した方式では、動画像から異常行動を直ちに検出することができる。本方式では、画像中に複数の対象が有る場合、それぞれの対象の特徴の和が、全体の特徴となる加法性を持つので、通常（正常）動作の特徴ベクトルは、特徴空間（251次元）のある部分空間（通常動作部分空間）に分布することになる。従って、異常行動は、常時、通常動作の学習によって得られる「通常動作部分空間」からの逸脱（その距離を数値化すると、その値）として、直ちに高速かつ高精度に検出・認識される（複数人の場合でも、異常値検出力は同じ）【図２参照】。

　ここでも、あらかじめ準備しておく対象のモデルや知識は一切不要であり、計算量も一定で少ないためリアルタイム処理が可能であり、自動（無人）ビデオサーベイランスでの異常検出の様々な課題に応用できる。

図2　異常検出の応用例（ここでは、歩くが正常、転ぶが異常）

　さらに、今回開発した認識技術は、画面を分割しHLACの特徴である加法性を利用することにより、移動体の自動追跡も可能である。追跡には、対象の形情報に加えて色情報も重要な要素となるので、HLAC特徴をカラー画像に対応できるように拡張してある。従来手法の殆どが画像レベルでの照合（テンプレートマッチング）であるため、対象の切り出し誤差（位置ずれを含む）や対象の動作の変化などによって、誤った追跡となりがちであった。また、対象が一度物陰に隠れる、あるいは他の対象と交差する場合、追跡ができなくなるなどの問題点があった。これに対して、本方式は移動対象の「特徴レベル」での同定・認識に基づく非常に頑健（robust）で安定な追跡法であり、移動体の切り出しも不要で計算量も少なく、リアルタイムでの追跡が可能になった【図３参照】。

図3　移動体の頑健で安定な自動追跡への応用例

４．今後の予定

　今後は、文部科学省の「都市エリア産学官連携促進事業（情報通信：安全・安心な都市生活のためのユビキタス映像情報サーベイランス）」、「科学技術振興調整費（重要課題解決型研究等の推進／交通事故対策技術の研究開発／状況・意図理解によるリスクの発見と回避）」に適用し、本法式の実用化に向けた研究開発を行う予定である。さらに、同省の「21世紀COEプログラム（情報科学技術戦略コア（東京大学大学院情報理工学系研究科の採択テーマ））」において、対話システムやロボットなどの「実世界情報システム」分野における視覚の研究開発にも本方式を応用する予定である。

　本方式は、高性能かつ汎用的であるので、セキュリティや防災などのビデオサーベイランスに関わる応用分野（監視カメラシステム、警備システム、防災監視システムなど）を始め、ビデオの自動インデクシング（インデックスを作ること、シーンの変わり目の自動検出・編集）、医療福祉やスポーツ分野（リハビリテーション、動作の矯正、トレーニングシステムなど）、さらには、対話システムやロボットの視覚など、広くコンピュータビジョンに関係する分野での応用が期待される。

用語の説明

◆高次局所自己相関特徴抽出法（HLAC）: 大津によって開発された画像認識のための特徴抽出法である。画像の濃淡を表す関数をg(x, y)として、通常の自己相関は g(x, y)g(x+a, y+b) の xとy に関する積和であるが、HLACは、これを高次(N次) g(x, y)g(x+a₁, y+b₁)‥g(x+a_N, y+b_N)に拡張し、しかも変位a_i, b_i を局所（例えば参照点(x, y)を中心とする 3×3 画素近傍）に限定したものである。3点関係(N=2)までに限ると、35通りの値が画像から得られ、35次元の特徴ベクトルとなる（白黒2値画像の場合は25次元）。この特徴ベクトルは、位置不変性（認識対象の位置に依存しない）、加法性（対象が2つあればそれぞれの特徴ベクトルの和となる）といった、画像認識にとって好ましい性質を持ち、対象の切り出しを必要としない（セグメンテーションフリーな）汎用画像認識手法として広く使われている（平成3年第50回注目発明）。カラー画像、また最近は時間を含む3次元(x, y, t)の動画像の場合へ拡張され、有効に使われている。[参照元へ戻る]
◆適応学習型認識方式: 通常の認識方式は、課題に即した処理手順を逐次行う直接的な方式である。そのため、あらかじめ解法が明確に分かっている課題には効率的であるが、解法の自明ではない課題（例えば顔の認識など）には適用困難であり、前提が一部でも成り立たないと失敗する脆さがある。また、課題専用の方式となり汎用性がない。これに対して、例えば人の脳をモデルにしたニューラルネットによる認識方式のように、パラメータを持った柔軟で一般的なモデルを用意しておいて、例からの学習によって統計的・適応的にパラメータを最適化する認識方式を適応学習型認識方式と言う。多変量解析手法などもその例である。[参照元へ戻る]
◆HumanID (Human Identification at a Distance) プログラム: 米国防総省高度研究計画局（DARPA）が2000年2月に発表した、顔や身体の映像の時空間情報を利用した個人同定のためのプロジェクト計画。特に、遠距離からの監視カメラの映像から人（テロリストなど）を認識・同定する技術開発を促進。バイオメトリクス（指紋、声紋、虹彩等）による個人認証技術の発展として、米国の大学や企業が競って応募し研究開発を進めている。[参照元へ戻る]
◆gait認識: gaitとは人の歩く様で、歩様もしくは歩容と訳されている。人によって微妙にgaitが異なり、無意識では意外とその癖は隠せないとされている。従って、監視カメラに映った人のgaitから個人の認識（識別）が可能であり、変装が容易な顔などによる個人の認識よりも有利とされて、近年、HumanIDでも重要な課題として取り上げられ、研究が盛んに行われている。米国立標準技術研究所（NIST）は、その推進のためにgait認識のコンペティションのためのデータセット（HumanID Gait Challenge Dataset：71人の456の映像からなる）を提供し、認識率のランキング発表を行っている。今回の検証実験も、そのデータを用いて行った。[参照元へ戻る]
◆ビデオサーベイランス: サーベイランス（surveillance）とは継続的な調査によって事態の成り行きを厳しく見張ること（監視）であり、近年、ビデオサーベイランス（あるいは映像サーベイランス）と呼ばれるカメラによる映像監視技術が安全・安心の確保という意味で注目されている。監視業務の情報収集力向上の目的から、より広域にわたるカメラシステムを構築することが求められているが、ネットワーク接続カメラの普及により、こうした広域カメラシステムの構築は容易になりつつある。さらなる省力化のためには、コンピュータによる動画像認識理解技術によって物体を検出・認識し、あるいは異常そのものを検出して、監視センターに自動送信する技術の実現に期待が集まっている。[参照元へ戻る]
◆都市エリア産学官連携促進事業: 文部科学省が平成14年度から実施している事業。地域の個性発揮を重視し、大学等の「知恵」を活用して新技術シーズを生み出し、新規事業等の創出、研究開発型の地域産業の育成等を目指すことを目的とする。茨城県では、筑波研究学園都市エリアが、平成14年度に「都市生活支援インテリジェント情報技術（H14-16）」で採択され、さらに発展型として、平成17年度に「安全・安心な都市生活のためのユビキタス映像情報サーベイランス（H17-19）」が採択された（筑波大学、産総研、農業・生物系特定産業技術研究機構が参画）。[参照元へ戻る]
◆重要課題解決型研究等の推進: 文部科学省・科学技術振興調整費の大型プロジェクトの一つ。このプロジェクトに筑波大学と産総研、および国土交通省傘下の研究所等が参画した「状況・意図理解によるリスクの発見と回避(H16-18)」プロジェクトが採択された。自動車事故の抜本的低減を目的とし、状況・意図に応じた運転支援を実現する予防安全型技術の構築を目指す。[参照元へ戻る]
◆21世紀COEプログラム: 文部科学省「21世紀COEプログラム」は、我が国の大学に世界最高水準の研究教育拠点を形成し、研究水準の向上と世界をリードする創造的な人材育成を図るために重点的な支援を行うことを目的としている。同プログラムの「情報・電気・電子」分野で、東京大学大学院情報理工学系研究科の「情報科学技術戦略コア(H14-18)」プロジェクトが採択されている。[参照元へ戻る]
◆実世界情報システム: 上記の東京大学の文部科学省「21世紀COEプログラム」に採択された「情報科学技術戦略コア」の中の3つのプロジェクト（実世界情報システム、大域ディペンダブル情報基盤、超ロバスト計算原理）の内の一つ。人間を中心とする情報システムの実現を通じ、実世界情報学の展開を図る。人間、ヒューマノイド、エージェント、ユビキタスアプライアンスが共棲する実世界情報環境を構築し、ロボティクス、バーチャルリアリティ、音声音響処理、センサ・アクチュエータ技術などの融合的研究開発を実施する。（参考：「人と共存するコンピュータ・ロボット学：実世界情報システム」、オーム社刊）[参照元へ戻る]
◆オプティカルフロー: 物体は明るさが変化しない剛体であるとの仮定のもとに微分によって求められる、動画像中の運動物体の速度場。これを検出することにより物体各点の移動方向や速度が分かる。画像各点での矢印の向きが物体の移動方向を示し、その長さが見かけの移動速度を示す。ただし、人などの柔構造体や実際のノイズには弱い。[参照元へ戻る]
◆統計的特徴抽出: オプティカルフローのような局所的な微分値を求めるのに対して、統計的特徴抽出は、ある性質の局所特徴がどれくらいの頻度で画像全体に存在しているかなど、むしろ積分値で表されるような統計量を特徴として抽出する。部分的な誤差やノイズに強い性質を持つ。[参照元へ戻る]

お問い合わせ

お問い合わせフォーム