開発の背景
パソコンなどを用いて人間のような歌声を人工的に生成できる歌声合成ソフトウエアは、多様な歌声での合成が容易に行え、歌唱の表現をマウスやキーボードなどで自在にコントロールできることから、歌唱付き楽曲の制作における可能性を広げる重要なツールです。しかし、高品質で人間らしい自然な歌声を合成するためには、適切な知識や楽譜を入力した後に時間をかけた調整が必要であり、誰でも容易に使いこなせるものではありませんでした。しかも、その結果は別の歌声合成ソフトウエアや別の音源(歌手の声)にそのまま適用できないために、再調整が必要という問題もありました。
お手本を歌うだけで誰もが手軽に歌声合成できるシステム
私たちは、市販の歌声合成ソフトウエアでの楽譜入力や歌い方の調整を、マウスやキーボードではなく「歌って」行える技術VocaListener(略して「ぼかりす」)を開発しました。ユーザーの歌声とその歌詞をお手本として与えるだけで、その歌い方を真似た別の歌声を自動で合成します。これにより調整時間が大幅に減少し、調整に関する知識をもたないユーザーでも自然な歌声を合成することが容易になりました。また、別の歌声合成ソフトウエアや音源に切り替える場合にも自動で再調整するため、多様な歌声での合成が簡単に行えます。
VocaListenerによる合成結果の具体例は、ホームページ(http://staff.aist.go.jp/t.nakano/VocaListener/index-j.html)や、動画共有サービス『ニコニコ動画』(http://www.nicovideo.jp/mylist/7012071)上で視聴できます。
VocaListenerでは、歌声合成パラメーター(歌い方)の高精度な推定機能をもっています。人が何度も発声練習して上達するかのように「歌声の合成」「合成音の分析」「パラメーターの更新」の処理を自動反復し、ユーザーの歌い方を高精度に真似る歌声合成を可能にしました。また、歌詞と歌声の高精度な自動対応付け技術も実現し、楽譜を入力しなくても歌詞を歌うだけで合成が可能になりました。さらに、歌詞と歌声の対応付けの誤り箇所を指摘するだけで訂正できる機能(ダメ出しインタラクション)や、高さ(音域)を変えたりユーザーの歌唱力を補正したりして合成する機能も実現しました。
![]() |
| VocaListenerによるユーザーの歌声とその歌詞からの歌声合成パラメーター推定の概要 |
今後の展開
今後は、産業界と連携してVocaListenerを実用化するなど、歌声合成を用いた音楽制作の幅広い支援や、この技術を今後の歌声情報処理研究の基本ツールの一つとして活用し「人間らしい歌唱」や「声の個人性」などの解明を目指していきます。


