発表・掲載日:2009/04/27

歌声合成パラメーター推定技術 VocaListener(ボーカリスナー)を実現

-『歌う』ことによって、より自然なニュアンスで歌声が合成できる-

ポイント

  • 「このように歌わせたい」と歌ってVocaListenerに入力すれば、そのニュアンスをまねた歌声が合成可能
  • 従来のように歌声合成パラメーターを人手で長時間調整せずに、人間らしい自然な歌声を誰でも容易に合成できる
  • 歌声合成ソフトウェアやその音源(歌手の声)を切り替えても自動的に同じ歌い方で合成可能

概要

 独立行政法人 産業技術総合研究所【理事長 野間口 有】(以下「産総研」という)情報技術研究部門【研究部門長 関口 智嗣】メディアインタラクション研究グループ 後藤 真孝 研究グループ長、中野 倫靖 産総研特別研究員は、歌声合成ソフトウェアの合成パラメーターを、歌唱の事例とその歌詞を与えるだけで調整できるソフトウェア技術 VocaListener(ボーカリスナー、略称「ぼかりす」)を実現した。

 VocaListenerは、市販の歌声合成ソフトウェアを用いて、録音された歌唱音声の事例からその歌い方(声の高さと声の大きさ)をまねて歌声合成できる技術である。従来は、人間らしい自然な歌声を合成しようとすると、その細かいニュアンスを表現するために、楽譜と歌詞を入力した後に、歌声合成パラメーターをユーザーが人手で長時間調整しなければならないことが多かった。その楽譜入力と調整がVocaListenerにより自動化されることで、その調整時間が大幅に減少し、調整に関する知識を持たないユーザーでも高品質な歌声合成結果を得ることが容易となった。これによりユーザーは、合成された歌声によってどのような表現をしたいのか、どのようなメッセージを伝えたいのかに、より注力して歌声を合成できるようになる。

 VocaListenerを実現するために、独自の反復推定に基づく歌声合成パラメーター推定技術を開発したことで、合成結果の品質が向上し、歌声合成ソフトウェアやその音源(歌手の声)を切り替えても再調整せずに自動的に合成できるようになった。その際、歌詞と歌声の高精度な自動対応付け技術も開発したことで、楽譜を一切入力しなくても歌うだけで合成が可能になった。さらに、ユーザーによる合成結果の微調整も容易にする新たな技術も開発した。

 本研究成果は、歌声合成技術を用いた音楽制作を幅広く支援することを目指して、実用化に向けた取り組みが既に始まっている。

図


開発の社会的背景

 個人がパソコン等を用いて手軽に合成できる歌声合成ソフトウェアは、多様な歌声で歌唱付き楽曲を制作するのを容易にし、歌唱の表現を制作者の意図したとおりにコントロールできる重要なツールである。2007年以降、市販の歌声合成ソフトウェアを使った楽曲制作を楽しむユーザーが急増し、その利用拡大に対する社会的関心の高さからさまざまなメディアに取り上げられてきた。内閣府による海外向け広報誌「Highlighting JAPAN through images」の2009年3月号(Vol.2 , No.11, p.24-25)においても紹介(http://www.gov-online.go.jp/pdf/hlj_img/vol_0020et/24-25.pdf)されているように、歌声合成ソフトウェアを用いた楽曲が動画共有サービス等に多数投稿され、制作しているユーザーが増えただけでなく、そうした楽曲を楽しむリスナーも増えた。しかし、人間らしい自然な歌声を合成しようとすると難易度が高く、適切な知識や時間をかけた調整が必要だったために、誰でも容易に使いこなせるものではなかった。

研究の経緯

 音楽は産業・文化の面で主要なコンテンツであり、その技術開発に取り組む音楽情報処理分野はその重要性と進展が急速に注目を集めて、国内外で活発に研究されている。産総研においても、音楽音響信号理解技術とそれを応用した音楽インタフェースを中心とした幅広い研究開発を長年実施して、その進展に貢献してきた。特に近年は歌声に着目して、歌声合成、歌声認識、歌手同定、歌声検索、歌声評価等の多様な成果を生み出し、その幅広い研究を歌声情報処理と名付けて新たな分野として提唱している。

 こうした研究成果の蓄積から、ユーザーの歌声をまねて容易に合成ができ、しかも、歌声合成ソフトウェアやその音源(歌手の声)を切り替えても自動的に同じ歌い方で合成できる新たな技術の実現に至った。

 なお、本研究の一部は、独立行政法人科学技術振興機構 戦略的創造研究推進事業(CREST)の助成を受けたものである。

研究の内容

 産総研では、歌唱の事例とその歌詞を与えるだけで、その事例をまねた歌声が合成できるように歌声合成パラメーターを調整できる技術 VocaListener(ボーカリスナー、略称「ぼかりす」)を実現した。従来必要だったパラメーターの長時間の調整や楽譜の入力が不要であり、人間らしい自然な歌声が容易に合成できる。VocaListenerは、以下の3つの特長を持つ。

1.反復推定に基づく歌声合成パラメーター推定技術によって、合成結果の品質が向上し、歌声合成ソフトウェアやその音源(歌手の声)を容易に切り替えて合成可能。  

 VocaListenerを実現する上で難しいのは、歌唱事例の歌い方の分析結果(声の高さと大きさ)を、そのまま歌声合成ソフトウェアにパラメーターとして与えても、そのとおりの高さと大きさで合成音が鳴らないことである。これは歌声合成ソフトウェアが通常、多数の短い歌声波形の断片を切り貼りして合成音を出す仕組みを持ち、前後関係にも依存した非線形な動作をするからである。そこでVocaListenerでは、あたかも何度も発声練習するかのように、合成音を再度取り込んで分析し、意図したとおりでない部分のパラメーターを補正して再度合成する処理を何度も反復することで、歌い方を高精度にまねた歌声合成を実現した。これにより、歌声合成ソフトウェアやその音源(歌手の声)を切り替えても、その新たな声に合わせて自動的に再度パラメーターが調整されるため、多様な歌声で容易に合成できるようになった。

2.歌詞と歌声の高精度な自動対応付け技術により、楽譜を一切入力しなくても歌詞のテキストに合わせて歌うだけで合成可能。

 歌唱事例においていつ歌詞のどこを歌っているかを自動的に対応付けることで、歌詞の各音節の高さを推定し、音符化して歌声合成用の楽譜表現を生成可能にした。その自動対応付け技術の精度を向上させるために、多量の歌声に音節の記号をラベル付けし、独自に歌声専用音響モデル(歌声特有の音響的な響き方を学習したモデル)を構築した。これにより、ユーザーが音符とその音節を一つ一つ入力してそのタイミングを調整しなくても、歌うだけでタイミングが最適に調整された音符列を得ることが可能になり、利便性が大きく向上した。

3.ユーザーによる合成結果の微調整も容易にする新たな技術を開発。

 歌声合成では軽微な誤りも合成品質の劣化につながり、音楽制作という用途ではそうした箇所がリスナーに違和感を与えることから、すべての誤りを容易に訂正可能にしておくことが望ましい。そこで例えば、歌詞と歌声の自動対応付けで時間的なずれが生じてしまったような箇所に対しては、ユーザーが指摘してダメ出しをするだけで、複数の候補が出て容易に選択して誤り訂正できるインタラクション技術を開発した。専門的な知識を持たないユーザーにとって、音節の境界を手作業で修正するのは難しくても、候補を聞いてどれがイメージに近いかを選ぶことは容易なため、こうしたダメ出しに基づく修正技術は大切となる。また、異なる高さ(音域)を指定して合成したり、ユーザーの歌唱力が十分でない場合にそれを補正して合成したりする機能も実現した。

今後の予定

 本研究で開発した歌声合成パラメーター推定技術VocaListenerを、産業界と連携して実用化し、歌声合成を用いた音楽制作を幅広く支援したり、歌声合成が適用可能な新たな応用事例を開拓したりしていく予定である。また、本技術は高品質で自然な歌声が合成できることから今後の歌声情報処理研究の基本ツールの一つに位置付けられ、本研究の根底にある「人間らしい歌唱とは何か」、「声の個人性は何に起因するのか」等の解明に資することも目指している。

問い合わせ

独立行政法人 産業技術総合研究所
情報技術研究部門 メディアインタラクション研究グループ
研究グループ長 後藤 真孝
E-mail:m.goto*aist.go.jp(*を@に変更して送信下さい。)

独立行政法人 産業技術総合研究所
情報技術研究部門 メディアインタラクション研究グループ
産総研特別研究員 中野 倫靖
E-mail:t.nakano*aist.go.jp(*を@に変更して送信下さい。)


用語の説明

◆歌声合成ソフトウェア
人間のような歌声を合成できるソフトウェア。通常は、歌詞と楽譜を入力すると歌声を合成できる。市販されている歌声合成ソフトウェアの多くは、事前に歌手等による歌声を録音しておき、それを多数の短い歌声波形の断片として保持している。合成時には、それを切り貼りして合成音を出す仕組みを持ち、事前に音源として用意する歌声波形を異なるものとすれば、原理的にさまざまな声色の歌声を合成できる[参照元に戻る]
◆歌声合成パラメーター
声の高さや大きさなどの、歌声合成時に使用するパラメーター(ある時刻にどのような高さ、大きさとするか等の指定)。楽譜の音符列のとおりの高さで歌声を合成すると、人間には発声不可能な不自然な高さの変化になってしまうため、通常、歌声合成ソフトウェアはその変化がなめらかになる等、歌声固有のさまざまな特徴を加えて合成する。それに加えて、細かいニュアンスを表現するために、ユーザーが声の高さや大きさなどの詳細な時間変化を歌声合成パラメーターとして個別に指定し、調整することができる。[参照元に戻る]

関連記事