スピントロニクスを用いた人工ニューロンを開発し、音声認識に成功

－スピントルク発振素子を用いてニューロモロフィック・コンピューティングを実現－

ポイント

ナノメートルサイズのスピントルク発振素子を用いた人工ニューロンを考案
発振素子を利用することで、99.6 %の正答率で音声を認識
人工知能への応用に期待

概要

　国立研究開発法人産業技術総合研究所【理事長中鉢良治】（以下「産総研」という）スピントロニクス研究センター【研究センター長湯浅新治】　金属スピントロニクスチーム常木澄人研究員、薬師寺　啓研究チーム長、同研究センター久保田均総括研究主幹、福島章雄　副研究センター長らは、フランス　パリ・サクレー大学、アメリカ国立標準研究所（NIST）と共同で、スピントルク発振素子（STO）を用いた人工ニューロンを考案し、その原理を実証した。

　ヒトの脳でのニューロンとシナプスによる情報処理を模倣したニューロモロフィック・コンピューティングは、脳が得意とする認識や学習といった膨大で曖昧・不完全な情報の処理を低消費電力で高速に実行できると期待されている。今回、ナノメートルサイズのスピントルク発振素子を人工ニューロンとして用いたニューロモロフィック回路音声認識システムを開発した。ナノメートルサイズの人工ニューロンを用いた音声認識は世界初で、このシステムは人間が発声した"0"～"9"の言葉を99.6 %の正答率で認識できた。これはより大型で複雑な光学系リザーバーコンピューターと同等の正答率である。今回開発した人工ニューロンによって、ニューロモロフィック・コンピューティングや人工知能などの研究開発が促進されると期待される。

　なお、この成果の詳細は、7月27日（現地時間）に英国の学術誌Natureのオンライン版で公開される。

スピントルク発振素子を用いた人工ニューロンの回路図（左）と音声認識の成功率（右）

開発の社会的背景

　近年、「TrueNorth」に代表される人工知能チップの研究が盛んに行われている。これらのチップはヒトの脳の情報処理を模倣するニューロモロフィックシステムを持つ。このシステムでは、脳内で情報伝達やメモリー機能をつかさどっていると考えられるニューロンとシナプスを人工的な素子に置き換えており、脳のさらなる理解や、音声認識やパターン認識の高効率化・高速化を目指している。従来のコンピューターによるこれらの処理では、消費エネルギーはヒトの脳に比べて10000倍以上と効率が悪く、また演算回路が大きくなるという問題がある。この問題を解決するために、さまざまなニューロンチップの研究開発が行われている。ヒトの脳を模倣するニューロモロフィックシステムの高度化には、高効率で超小型の人工ニューロンや人工シナプスが不可欠である。

研究の経緯

　産総研は、不揮発性磁気メモリー STT-MRAMの開発で培った薄膜材料技術と微細素子作製技術を応用して、スピントルク発振素子の実用化研究を行ってきた。スピントルク発振素子は、非線形性が高い超小型の発振素子である。また、素子寸法を10ナノメートル程度まで小さくすれば、1マイクロワット程度の微少な入力信号で動作するため、低消費電力・高効率な発振素子となる。産総研ではこれまでスピントルク発振素子の研究開発で世界をリードする成果を挙げてきた。（2008年8月28日、2014年1月8日、2015年12月14日、 2016年12月16日産総研プレス発表）

研究の内容

　スピントルク発振素子は、直流電流を流すとスピンの共鳴歳差運動が励起されて（強磁性共鳴）、交流電圧が発生する自励発振素子である(図1(a))。この発振素子の出力電圧は直流電流の大きさに依存するため、直流電流値を変化させることで出力の交流電圧値を変化させることができる(図1(b))。このとき、交流電圧の振幅は入力の変化に瞬間的に追従するのではなく、緩和時間と呼ばれる時間遅れを伴って徐々に変化する。また、交流電圧の振幅は、電流値に比例しない、非線形な振る舞いをする。この緩和時間と非線形性という特徴を、ニューロモロフィックシステムで必要とされる short term memory (短時間記憶)や信号の非線形性として活用できると考え、スピントルク発振素子を用いた高効率・超小型の人工ニューロンを考案した。

スピントルク発振素子の模式図(a)と直流電流に対する交流電圧の時間変化(b)の図

図1 スピントルク発振素子の模式図(a)と直流電流に対する交流電圧の時間変化(b)

(a)矢印は磁化の向きを表す。（b）スピントルク発振素子に流す直流電流の大きさによって、出力の交流電圧の大きさ（包絡線）が非線形に変化する。また、入力の直流電流の急しゅんな変化にたいして、出力の交流電圧の包絡線は緩和時間を伴って追従する。

　この人工ニューロンを用いて、リザーバーコンピューターの概念を用いてニューロモロフィックシステムを構築した。このシステムで、人間が発した"0"から"9"の数字（英語）の音声を認識する実験を行った。図2(a)は"1"の音声信号である。音声信号に前処理（フィルター処理とマスク処理）を施して入力信号(図2(b))とした。この信号をスピントルク発振素子からなる人工ニューロン回路に入力すると、図2(c)のような出力電圧が得られた。図2(b)と図2(c)の波形の間には、スピントルク発振素子が持つ緩和時間と非線形性によって変化が生じている。

　学習および認識に用いた音声データは話者5人からなる"0"から"9"の数字10個を一つのデータセットとして用いた。発声が異なる10回のデータセットを用意し、N個のデータセットを学習に用いて(10-N)回を認識に用いた。図2(d)に音声認識の成功率の学習回数依存性を示す。ここで、「発振素子なし」は入力信号（図2(b)）を直接音声認識プログラムで処理した場合、「発振素子あり」は人工ニューロンの出力信号（図2(c)）を同じ音声認識プログラムで処理した場合を示す。発振素子からなる人工ニューロン回路を用いることで、少ない学習回数でも音声認識の成功率が大幅に向上した。正答率は最大で99.6 %となり、ナノメートルサイズの人工ニューロンを用いたにもかかわらず、より大型で複雑な光学系リザーバーコンピューターと同等の正解率を達成した。

図2 "1"という発声（英語）の音声信号(a)、音声信号に前処理を施したスピントルク発振素子への入力信号(b)、スピントルク発振素子の出力信号(c)、音声認識の成功率の発声回数依存性(d)
(a.u.は量の比を表すために用いられる相対的な物理単位（任意単位）。)

今後の予定

　今回開発した人工ニューロンに新たに人工シナプスを接続した高度なニューロモロフィックシステムを開発し、ビッグデータのリアルタイム情報処理の実現を目指す。

用語の説明

◆スピントルク発振素子（STO）: ナノメートルサイズの磁気抵抗素子に直流電流を流すと、電子が持つ磁石としての性質（スピン）により、素子に含まれる強磁性体中のスピンが共鳴的な歳差運動（強磁性共鳴という）を起こすため、素子の両端に交流電圧が生じる。スピントルク発振素子は半導体素子とは異なり、共振器や周波数を高めるための回路などを用いずにマイクロ波帯の交流信号を直接発生させることができる。英語の"Spin-Torque Oscillator"を略して、STOとも呼ばれる。[参照元へ戻る]
◆ニューロン: 神経回路網で情報伝達を行い、また従来のコンピューターで言う演算処理を行う。一般的にはパルスのような非線形性の高い信号を発生する。[参照元へ戻る]
◆ニューロモロフィック・コンピューティング: ヒトの脳の神経回路網を模倣したコンピューター。このコンピューターは通常、情報伝達の起点となるニューロンと、各ニューロンをつなぐシナプスからなる。ニューラルネットワークともいう。従来のコンピューターに比べて、低消費電力で認識問題を解くことができる。[参照元へ戻る]
◆リザーバーコンピューター: ニューラルネットワークの一種。一般的なニューラルネットワークでは、問題の回答率を向上させるためにシナプスの調整(学習)が行われる。また画像認識などの大きなデータかつ複雑な問題を解く場合は、多層のニューラルネットワークが用いられ、シナプスの数も膨大になる。この大量のシナプスの調整を各階層で行えるように工夫することは、回路設計に大きな負担となる。一方、リザーバーコンピューターは、出力層以外のシナプスの教育はせず、最終段のシナプスのみ教育する。このため、回路の制御が非常に簡単になる。また、ランダムなニューロン間の接合も含まれるため、回路を複雑に制御する必要がなくなる点も、回路設計に大きな利点となる。代表的なものとして、レーザーなどの光学系振動子を用いた光リザーバーコンピューターなどがある。[参照元へ戻る]
◆シナプス: 神経回路網で各ニューロンをつなぎ、あるニューロンから次のニューロンへの影響を決める。現在活発に研究されている機械学習などは、ニューロモロフィック・コンピューターでは、シナプスを調整することを指す。[参照元へ戻る]
◆ニューロンチップ: 人工的に作製したニューロンやシナプスを用いてヒトの脳の神経回路を模倣したチップ。[参照元へ戻る]
◆緩和時間: ある状態から別の状態に遷移するためにかかる時間。[参照元へ戻る]
◆非線形: 比例関係のような一次式（線形）では表せない性質のこと。[参照元へ戻る]
◆Short term memory(短期記憶): 比較的短い時間保持される記憶。定着するわけではないので、時間とともに情報は消える。[参照元へ戻る]
◆音声認識プログラム: ここでの音声認識プログラムは、"1"-"9"の音声を"1"-"9"というカテゴリに分類するプログラムを指す。具体的には、図2(b)や図2(c)に示した時系列信号データを入力として、学習済みの"1"から"9"の信号列のどれと最も近いかを計算している。[参照元へ戻る]

お問い合わせ

お問い合わせフォーム