研究ハイライト大量の実画像データの収集が不要なAIを開発

情報・人間工学領域

大量の実画像データの収集が不要なAIを開発

数式からAIが自動学習、人の判断を経た学習と同程度以上の認識精度を実現

⼈⼯知能研究センター⽚岡裕雄
岡安寿繁
松本晟⼈
⼭⽥亮佑
佐藤雄隆

実画像なしでニューラルネットワークの事前学習を改善

事前の学習で実画像を一切用いず、数式から自動生成した大規模画像データセットを用いて人工知能（AI）の画像認識モデル（学習済みモデル）を構築する手法を世界で初めて開発した。AIが学習で使用する大量の実画像やそのプライバシーの確保、人間によるラベル付けコストの削減など商業利用の際の課題を解消するとともに、実画像や人の判断が入った教師ラベルを用いる現在の手法と同程度以上の画像認識精度を一部のタスクにおいて実現した。画像を必要とするさまざまな環境のAI構築で応用が期待できる。

導入の障壁となっている「大量の画像データ」

大規模な画像データセットは画像認識AIの学習に使用されているが、そのようなデータセットの構築には時間と労力がかかり、得られたデータセットにはラベル付けの誤りやプライバシーの問題、著作権の問題などデータの透明性に問題があり、商業利用を妨げている。実画像を用いないことこそ、上記の課題を根本からクリアする方法と考えた結果、本研究の着想に至った。実画像を用いない事前学習でありながら、実画像に対して従来と同程度以上の認識精度を実現する方法が必要とされる。

フラクタルで生成された画像パターンは、他の自動生成データセットを凌駕

本研究では、画像データと教師ラベルを数式から完全自動生成し、画像データセットを構築した。はじめに自然物の一部を形成しているとされる数式であるフラクタル幾何によって自動生成した画像データセットを画像認識AIに学習させたところ、実画像と人間が与えた教師ラベルを用いた従来の学習に近い精度で認識することができた。さらに、画像認識の際、AIが主にフラクタル幾何の輪郭成分に着目して物体を識別していることから、放射状に輪郭を生成する関数を用いた画像データセットも構築した。これらふたつの画像データセットをベースとして改善を繰り返したところ、それぞれ学習した画像認識AIによる一般物体画像(ImageNet)の認識精度は、実画像によるものより高い水準（フラクタル幾何：82.7 ％、輪郭形状：82.4 ％、実画像81.8 ％）を記録した。

学習済みモデルの公開を通して、応用範囲を広げる

実画像を用いない事前学習の伝達精度が向上すれば、従来使用されているImageNetデータセットの代替が可能となり、プライバシーの保護やラベル付けのコストの削減ができる。実データや人が判断した教師ラベルを用いなくてもあらゆるタスクにおいて基盤となる「汎用学習済みモデル」を開発することで、高い性能が求められる医療分野や交通シーン解析、物流現場など、さまざまな環境でAIを構築する際に役立つことが期待される。あらゆる場面や産業タスクを想定して学習済みモデルを構築・公開し、より多くのユーザーが権利関係や倫理問題の懸念がない状態でAI開発できるようプロジェクトを進めていく。