1.目的と効果
近年の情報技術の発展によって、処理の対象となる情報源が従来の文字情報からマルチメディア情報へと急速に変化しています。今日の情報検索では、テキスト化されたデータだけでなく、マルチメディアデータも効率的に検索する技術が要求されます。特に、大量のマルチメディアコンテンツから必要な情報を最小のコストで取捨選択し、最大の効果を得るための情報検索技術は重要です。VoeMIR(Voice operated efficient Multi−media Information Retrieval)は、入力キーワードと検索対象のマルチメディアコンテンツを、文字情報処理だけではなく、音声をベースに効率良く検索できるシステムです。
[適用分野]
●放送録画物の検索 ●博物館や展示場などのガイドビデオの検索
●インターネット上のマルチメディアの検索 ●コールセンターの音声ソリューション
●個人携帯型端末向けのマルチメディアのオンデマンド配信サービス等
2.技術の概要、特徴
マルチメディアコンテンツを自動分類・検索する従来の方法としては、対象コンテンツとキーワードを音声認識により文字化してから行います。しかし、従来の音声認識システムには登録された単語しか認識できないという欠点がありました。それに対して、この技術では、検索対象コンテンツや入力キーワードを、人間発声の基本単位である音素・音素片のレベルで検索処理を行います。これによって、得られた特徴として以下の点があげられます。
- 言語に依存する従来の音声情報処理システムを多言語システムに容易に拡張可能。
(マルチ言語システム) - 音声認識技術の致命的な弱点である未登録語問題を解決した語彙に制約されないシステムが構築可能。
(語彙フリーシステム) - 非母国語話者による外国語マルチメディアコンテンツへのアクセスが容易に実現可能。
(クロス言語システム) - 音声認識システムのコンパクト化により、個人携帯型端末での利用を実現可能。
(コンパクトシステム)
新たに提案した発声記号単位の情報処理により、発声者・言語・語彙に制約されない効率的なマルチメディア検索システムを実現しました。テレビ東京の「トレタマ」でも紹介されています。
http://www.tv-tokyo.co.jp/wbs/2005/01/27/toretama/tt.html
![]() |
|
図1 VoeMIRの構成図 |

