心理学の手法をAIに応用し「不気味の谷」現象を検証

－AIで人間の感性評価傾向を探る－

ポイント

人間の顔とその他の物体を合成した画像を入力し、感情的な言葉との内容の一致度をAIで解析
人間に中途半端に似た対象を不快と評価する「不気味の谷」現象をAIで確認
人間が親しみを感じるロボットやアバターデザインへの活用に期待

概要図

AIを人間のモデルとして使った心理実験による不気味の谷現象の検証
（※原論文の図を引用・改変したものを使用しています。）

概要

国立研究開発法人産業技術総合研究所（以下「産総研」という）人間情報インタラクション研究部門林隆介主任研究員、伊賀上卓也リサーチアシスタントは、人間の顔とその他の物体を合成した画像に対する、感情的な言葉との内容の一致度をAIで解析し、人間に中途半端に似た対象を不快と評価する「不気味の谷」現象を確認しました。実験では、画像の内容を言語化するAIとして標準的な、既存の学習済みモデルを用いました。そして、人間の画像とその他の物体画像の合成度合いを変えることで、人間度合いを操作した約5,000枚の画像と、延べ10,000語以上の単語をAIに入力し、画像と単語との内容の一致度を解析しました。その結果、AIも画像の人間度合いの変化に対し、不気味の谷現象のような評価傾向を示すことが判明しました。研究成果は、不気味の谷研究にAIを活用する世界で初めての成果です。今後、人間が親しみを感じるロボットやアバターのデザイン評価手法に活用される可能性を示しており、人にやさしいインターフェース技術の開発に貢献します。

本研究は、独立行政法人科学技術振興機構・ムーンショット型研究開発事業（JPMJMS2012）ならびにNICT委託研究事業・国際共同研究プログラムに基づく日米連携による脳情報通信研究(課題22301)の支援のもとで行われました。

なお、その研究成果の詳細は、2023年5月19日（日本時間）に「Computers in Human Behavior」に掲載されます。

開発の社会的背景

ロボットやCGアバターは、人間とのコミュニケーションに用いられることが想定されるため、親しみを感じてもらえるようデザインに配慮することが求められます。ロボットやCGアバターの姿や振る舞いが人間に似ていると、観察者が感じる親和感は高まる傾向があります。一方、こうしたキャラクターが、人間の姿や振る舞いにさらに似てくると、かえって違和感を覚え、不気味にさえ感じるといわれています（図1）。この心理現象は、不気味の谷現象と呼ばれています。不気味の谷現象の克服は、ロボット工学やCG工学における課題として広く注目されています。これまでに、不気味の谷に関する心理学研究や脳科学研究が行われてきましたが、その認知メカニズムについては、いまだ論争に決着がついていません。

図1 不気味の谷現象の説明図
（※原論文の図を引用・改変したものを使用しています。）

研究の経緯

産総研は、人間の知覚・認知機能を模倣したAI技術を用いて、人間の脳機能を探る研究を行ってきました。一方、近年になって画像の内容を自然言語で記述できるAI技術が登場しました。そこで、本研究では、最新の画像評価AIが、さまざまな画像をどのような感情語で評価するか解析することで、不気味の谷現象に関わる、人間の感性評価の特徴や傾向を探る研究を行いました。

なお、本研究は、独立行政法人科学技術振興機構・ムーンショット型研究開発事業（JPMJMS2012：2021～2025年度）ならびにNICT委託研究事業・国際共同研究プログラムに基づく日米連携による脳情報通信研究（課題22301：2022～2025年度）の支援を受けています。

研究の内容

CLIPと呼ばれる最新のAI技術は、画像と説明文の間の対応関係を学習することで、両者の意味内容の一致度を出力することができます。学習に使われた説明文は、画像を見て人間が作成した文章です。したがって、このAIが学習しているのは「人間が画像の内容を言語として表現する傾向」であると言い換えることができます。本研究では、このAIにさまざまな画像を入力し、どのような単語（特に感情表現に関わる単語）がその内容に一致するか調べることで、「人間はどのような画像を、どのような感情語表現と結びつけて解釈する傾向があるのか」を探ることを着想しました。AIを使うことで、従来の人間を対象とした心理学実験では困難であった、膨大な数の画像と感情語との対応を網羅的に調べることできます。

不気味の谷現象を心理学的に調べる方法として、「人間の顔画像」と「他の物体画像」をモーフィングすることで、対象の「人間らしさ」を段階的に操作したのち、観察者に対象の親和感の高低を評価してもらう手法が用いられます。本研究では、人間の顔、サルの顔、車、食べ物、靴の5種類のカテゴリに属するフォトリアルな3次元CGを作成したのち、異なる物体カテゴリ間で5段階にモーフィングした画像を作成し、実験に用いました（合計5,040枚の画像を使用）。

また、心理学では、対象に対して人間が抱く印象の度合いを、「明るい－暗い」などの質問に対する答えとして段階的な数値で評価する手法（SD法）が提案されています。この手法を用いて、「人間らしさ」「不気味さ」「魅力の高さ」の三つの指標で不気味の谷現象を評価することが有効であると提唱されています（Ho & MacDorman, 2017）¹。一方、CLIPが学習した膨大な画像の説明文データの中には、さまざまな感情表現の単語が含まれています。

そこで、第1の実験では、SD法に含まれる形容詞群と、モーフィング画像との内容の一致度をCLIPの学習モデルで解析しました。まず、実験用に作成したモーフィング画像とSD法の質問項目に含まれる形容詞とをAIに入力し、どの程度内容が一致するかを出力しました。次に出力値を三つの指標値にまとめた結果、「人間の顔画像」の合成度が高くになるにつれて、AIによる「人間らしさ」指標の値も高くなることが確認できました。また、「不気味さ」指標と「魅力の高さ」指標は、画像の人間らしさが中間のモーフィング画像において、それぞれ最大値と最小値をとり、不気味の谷現象と同様の傾向を示すことが明らかになりました。この結果は、AIで「不気味の谷」現象を再現できることを意味しています。（図2）。

図2 AIによる「人間らしさ」・「不気味さ」・「魅力の高さ」指標値と画像の人間らしさとの関係
*印のついた水準は、他の全ての水準の指標値に対し統計的に有意差があることを示している。
*の数が大きいほど、指標値の有意差が大きいことを示す。
（※原論文の図を引用・改変したものを使用しています。）

第2の実験では、SD法で用いられた形容詞の代わりに、「人間」に関連する名詞群と、不気味の谷の代表的な例として挙げられる「ゾンビ」に関連する名詞群を、それぞれ30語用意しました。そして、第1の実験同様、モーフィング画像とこれらの名詞群の意味の一致度をAIで解析しました（図3）。その結果、「人間」に関連した名詞群は、画像の人間らしさが高まるほど、一致度が上昇することが確認されました。一方、中間のモーフィング水準の画像で、「ゾンビ」に関連した名詞群との一致度が最大となりました。すなわち、中間のモーフィング水準の画像が、不気味なキャラクターとよく対応するとAIは判定したことを示しています。

図3 AIによる「人間」関連名詞群と「ゾンビ」関連名詞群の評価値と画像の人間らしさとの関係
*印のついた水準は、他の全ての水準の指標値に対し統計的に有意差があることを示している。
*の数が大きいほど、指標値の有意差が大きいことを示す。
（※原論文の図を引用・改変したものを使用しています。）

最後の実験では、感性研究（Susanto et al., 2020）²で提案されている24種類の感情カテゴリに含まれる形容詞群（全630語）を用いました。その結果、「嫌悪」「強い嫌悪」「恐れ」「恐怖」といった「不気味さ」と密接に関連するネガティブな感情カテゴリとの一致度が、中間のモーフィング水準で最大となることが明らかになりました（図4）。

図4 AIによる24種の基本感情に関連した形容詞群の評価値と画像の人間らしさとの関係
*印のついた水準は、他の全ての水準の指標値に対し統計的に有意差があることを示している。
*の数が大きいほど、指標値の有意差が大きいことを示す。
（※原論文の図を引用・改変したものを使用しています。）

以上の実験結果は、AIを活用して、画像に対する不気味の谷現象のような感情評価傾向が研究できることを示した世界初の成果です。本研究成果ならびに実験手法は、人間が親しみを感じるロボットやアバターをデザインする際の評価手法にAIが役立つ可能性を示しており、人にやさしいインターフェース技術の研究に貢献します。

¹ C. -C. Ho & K. F. MacDorman. “Measuring the Uncanny Valley Effect.” International Journal of Social Robotics, 9, pp. 129-139 (2017). doi:10.1007/s12369-016-0380-9
² Y. Susanto, A. G. Livingstone, B. C. Ng, & E. Cambria. "The Hourglass Model Revisited." IEEE Intelligent Systems, 35(5), pp.96-102 (2020). doi:10.1109/MIS.2020.2992799

今後の予定

今後は、神経科学的な知見に基づき、より人間の脳の情報処理に近いAIを開発することで、一層人間らしい知覚・認知機能を再現したいと考えています。このようなAIの実現によって、さまざまな画像に対し、人間と同じような感性評価が自動的にできるようになると期待されます。従来技術では困難な、人間にやさしい対話的なインタラクションを行うロボットやアバターが生まれる可能性があります。

論文情報

掲載誌：Computers in Human Behavior
論文タイトル：Signatures of the Uncanny Valley Effect in an Artificial Neural Network
著者：Takuya Igaue and Ryusuke Hayashi
DOI：10.1016/j.chb.2023.107811

用語解説

CLIP: RadfordらOpenAIチームが2021年に発表したAI学習手法ならびにその実装モデル。Contrastive Language-Image Pre-trainingの略。画像とその説明文の対応関係を学習する方法で、4億ペアの画像と文章を学習したモデルが利用可能な形で公開されている。画像を入力するとその説明文を生成する、あるいは文章を入力するとその内容にあった画像を生成するといったAI技術に利用されている。[参照元へ戻る]
モーフィング: 画像を加工する手法の一つ。一方の画像から、徐々に他方の画像に変形するよう、中間段階の画像を合成する際に用いられる。具体的には、二つの画像に対し、それぞれランドマークと呼ばれる点を配置し、対応する点同士が一方から他方へ移動するように画像を変形する。色や明るさは、変形の段階に合わせて、二つの画像の数値を混ぜるのが一般的である。[参照元へ戻る]
SD法（エスディー法）: 対象となるモノや事柄に抱く感情や印象を、「明るい－暗い」、「人工的な－自然な」といった対立する形容詞の対からなる質問項目について回答させる方法。Sematic Differential法の略。意味差判別法とも訳される。人間を対象とした実験では、各質問項目に対し、通常5ないし7段階の尺度でどちらの形容詞に印象が近いかを回答する。さまざまな質問項目について評価値を測定することで、一元的に表現が困難な感情や印象を多変量で表現することができる。[参照元へ戻る]

お問い合わせ

お問い合わせフォーム