人間型ロボットの実環境での音声認識を実現

－生活雑音の中でも音声命令をピックアップ－

ポイント

ロボット頭部に設置した複数のマイクロホンにより音源の位置をリアルタイムで推定
カメラによる人の位置の情報とあわせて、テレビなどの雑音源のある場所でも、音声のみを抽出するロボットの聴覚機能を実現
生活環境における人間と人間型ロボットとの自然なコミュニケーションの実現に期待

概要

　独立行政法人産業技術総合研究所【理事長吉川弘之】（以下「産総研」という）情報技術研究部門【部門長坂上勝彦】メディアインタラクショングループ【グループ長　浅野太】と知能システム研究部門【部門長平井成興】ヒューマノイド研究グループ【グループ長　比留川博久】は、マイクロホンアレイを用いた生活環境での音声認識機能を開発し、人間型ロボット HRP-2プロメテ（以下「HRP-2」という）の知覚機能の拡大に成功した。マイクロホンアレイはロボット頭部周辺に設置した8個の無指向性マイクロホン【図1左参照】から構成されている。音が各マイクロホンに到達する時間の差から音源位置を推定し、同時にロボット頭部のカメラにより人の発見・追跡を行い人の位置を検出する。マイクロホンアレイとカメラから得られたこれらの情報を組みあわせて雑音の分離・除去を行い、安定した音声認識を行うことが可能になった。また、この雑音除去をリアルタイムで行えるハードウェアを開発、ロボット内部へ組み込むことでテレビなどの雑音源が存在するような場所でも、人が音声によってロボットに命令を与えたり、ロボットを通じてテレビなどの情報家電を操作したりすることが可能になった。

　このようなロボット聴覚機能によって、生活環境における人間と人間型ロボットとの自然なコミュニケーションの実現が期待される。

　本研究は、産総研のプロジェクト「ヒューマノイドロボット型知能ブースタープラットホーム開発（2003～2005年度）」の一環として実施された。


図１　左：マイクロホンアレイを設置した人間型ロボットの頭部。矢印はマイクロホンの位置を示す。右：ロボットに組み込んだ多チャンネル信号処理用ハードウェア。

研究の背景

　1996年に本田技研工業株式会社が人間型ロボットP2を発表して以来、日本をはじめ全世界で人間型ロボットの研究開発が盛んに行われている。また、経済産業省が策定したロボット分野の技術戦略マップで示されているように2025年には、家庭における家事支援や高齢者の自立支援、介助・介護等の、生活環境において人間を支援するロボットの実用化が期待されている。

　一方、これまでの人間型ロボットに関する技術は、ロボットの安全・安定な歩行や動作に関する機能、ロボットビジョン（視覚機能）を中心に開発が進められてきている。しかしながら、人間とロボットの自然なコミュニケーションを実現するための重要な機能であるロボットの聴覚機能に関する技術開発については、本格的な取り組みが少なかった。

　次世代ロボットの実用化が期待される生活環境において、人間が音声によって直接ロボットとコミュニケーションできる機能は、重要なロボットの知覚機能のひとつとなってきている。

研究の経緯

　産総研では、高性能化する情報通信環境を活用して、必要とする情報・知識を誰もが自在に創造、流通、共有できる、高度で安全な情報通信社会の実現を目指している。そのなかでも、機械と人間の自然なコミュニケーションを実現するヒューマンインターフェース技術開発は重要な推進テーマのひとつであり、家庭をはじめ実際のさまざまな環境において人間と安全に協調活動を行うことができる人間型ロボットは、ヒューマンインターフェース技術の実現形態のひとつである。そこで、産総研では2003年度から「ヒューマノイドロボット型知能ブースタープラットホーム開発」プロジェクトを開始し、さまざまな環境下で安全・安定に動作し、人間との自然なコミュニケーションが可能な人間型ロボットの開発をすすめている。本研究はこの研究プロジェクトの一環として実施された。

研究の内容

　近い将来、次世代ロボットの活動環境として期待されている生活環境には、テレビをはじめとしてさまざまな音源が存在する。このような状況下で、人と人とが行うように、人間とロボットが音声を使って自然なコミュニケーションができることは、生活環境で働くロボットにとって重要な機能のひとつである。本研究は、このような多数の音源が存在する環境であっても使用可能な音声インターフェースを人間型ロボットで実現させたものである。今回、人間型ロボットはHRP-2プロメテを使用した。

　本研究で開発した音声インターフェースは、

HRP-2の頭部周辺に埋め込まれた8個の無指向性マイクロホンで構成されるマイクロホンアレイシステム
HRP-2頭部の広視野用カメラによる画像から人物の位置を検出するソフトウェア
マイクロホンアレイの各マイクロホンへ音声が到達する時間の違いから音源の位置を推定し、カメラから得られた人の位置の情報とあわせることで、発話区間の検出と音源分離を行い、人の音声以外の雑音を分離・除去するソフトウェア
上記のソフトウェアをリアルタイムで実行できる小型の多チャンネル信号処理用ハードウェア【図１右参照】

から構成されている。

　この音声インターフェースにより雑音を除いた人の音声を、音声認識ソフトウェアJulianに与えることで、テレビなどの雑音源が存在する場所でも、人間がヘッドセットなどの装置を使わないで、音声認識を安定に行うことができるようになり、ロボットの聴覚機能が実現できた。

　さらに、認識した音声命令によりロボットを動作させ、ロボットからネットワークを介してテレビ等の情報家電を操作することができるソフトウェアを開発し、音声インターフェースの有効性を確認した。

今後の予定

　今回実現したロボットの聴覚機能（音声インターフェースおよび音声認識）は、一度に一人から発声されることを前提としているが、今後、視覚機能との連携を強化することで、複数の人物が発声している場合にも、雑音を分離しロボットへの音声による命令を認識できるようにしていく。さらに、ロボットの様々な動作との連携を強化し、視聴覚機能を備え、実環境で動作できる人間型ロボットの一層の機能向上を図る。

用語の解説

◆マイクロホンアレイ: 異なる位置に複数のマイクロホンを配置したもの。各マイクロホンの位置関係と、各マイクロホンに音が到達する時間の違いをもとにデータ処理をおこない、音源の位置を推定したり、特定方向の感度を上げたり下げたりすることができる。[参照元へ戻る]
◆HRP-2プロメテ: 経済産業省は、1998年度から5ヵ年計画で「人間協調・共存型ロボットシステムの研究開発（Humanoid Robotics Project、以下「HRP」という）」を推進した。HRPは、独立行政法人新エネルギー・産業技術総合開発機構から委託を受けた財団法人製造科学技術センターを管理法人として、産総研との共同研究により実施された。HRP-2プロメテは、HRPの研究開発の一環として川田工業株式会社が中心となって開発した人間型ロボット（人間型二足歩行ロボット）。身長154cm、体重58kg、腰2軸を含む30自由度（関節や動作点）を持ち、軽量でありながら多くの関節や動作点を持ち、人間に近い動きのできるロボットである。[参照元へ戻る]
◆技術戦略マップ: 経済産業省が、新産業を創造していくために必要な技術目標や製品・サービスの需要を創造するための方策を示したもの。２０分野を策定。（URL: http://www.metigo.jp/report/data/g50330bj.html）[参照元へ戻る]
◆発話区間: 人間の発声の開始から、終了までの時間のこと。[参照元へ戻る]
◆音源分離: 混ざり合ってマイクロホンに収録された音波を、音源ごとに分離する技術。ここでは、適応ビームフォーミングという手法を用いて、自動的に人のいる方向の感度を上げ、雑音方向の感度を下げ、人の声だけを雑音を含んだ信号から分離している。[参照元へ戻る]
◆音声認識ソフトウェアJulian: 2000年度から2002年度まで活動が行われてきた「連続音声認識コンソーシアム」において開発・配布されてきた高性能音声認識ソフトウェア。音声対話システムの適用範囲に応じて認識可能な文章の文法を記述することができ、数万語の語彙からなる文章の音声認識を行うことができる。現在、オープンソースでの開発が継続されている。（URL:http://julius.sourceforge.jp/ )[参照元へ戻る]

お問い合わせ

お問い合わせフォーム