深層学習による赤外線画像のカラー化技術を開発

－赤外線画像から可視光カラー化した画像の色再現性の大幅な改善－

ポイント

赤外線暗視画像から可視光カラー化した画像の色再現性を深層学習により大幅に改善
リアルタイムで赤外線動画のカラー化が可能
視認性の高いセキュリティーカメラや夜行性動物の生態記録などへの応用に期待

概要

国立研究開発法人産業技術総合研究所【理事長中鉢良治】（以下「産総研」という）分析計測標準研究部門【研究部門長野中秀彦】ナノ分光計測研究グループ永宗靖主任研究員は、多層の人工ニューラルネットワークを用いた深層学習による赤外線画像の可視光カラー化技術を開発した。これにより、これまでモノクロや近似的なカラーでしか表示できなかった赤外線暗視画像を、可視光下での色に非常に近いカラーで表示することができるようになった。

図1

開発の社会的背景

近年の防犯意識の高まりにより、防犯カメラや監視カメラなどのセキュリティーカメラの需要がますます高まっている。しかしながら、夜間の撮影に用いられる従来の赤外線撮影技術による画像は、モノクロあるいは近似的なカラーであり、視認性の面で問題があった。モニター監視者の疲労軽減の観点などから、視認性の高い撮影技術が望まれている。

一方、深層学習を用いた機械学習は、コンピューターの計算能力の向上や計算技法などの基礎技術の発展により、近年、言語、画像、音声、機械制御、最適化技術など、さまざまな分野に応用されつつある。今回の開発に関連する画像変換に関しては、イラストやアニメの自動着色、モノクロ画像のカラー化への応用などがある。なお、可視光画像と赤外線画像では輝度情報が異なるため、輝度情報をそのまま用いる従来の可視光モノクロ画像のカラー化技術では、赤外線画像を可視光下でのカラーに変換できない。

研究の経緯

産総研では、赤外線照明だけを用いて被写体のカラー動画を撮影できる赤外線カラー暗視撮影技術を開発してきた（2011年2月8日、2012年12月3日、2014年5月14日産総研プレス発表）。物質の色は可視光領域における反射特性に依存するが、可視光領域の反射特性と赤外線領域の反射特性の間には相関関係があることが分かっており、これは、その相関関係に基づいて、赤外線画像から可視光下での被写体の色を再現する可視光カラー化技術である。しかし、その相関関係は弱く、完全に被写体の色を再現するまでには至っていない。そこで、深層学習を用い、赤外線画像をより完全に近い被写体の色で再現する可視光カラー化技術の開発に取り組んだ。

研究の内容

今回、画像の特徴量を抽出し学習することができる CNNと時系列情報間の関連性を学習することができる RNNという深層学習の手法を基本に、輝度情報と色情報を同時に学習するモデルを構築することで、赤外線静止画や赤外線動画を可視光カラー化する技術を開発した。

図1は、お椀やコップなどの被写体一式を赤外線カットフィルターのない通常のカメラで撮影した画像である。図1(a)は可視光下での通常のカラー画像、図1(b)は赤外線照射下での通常の赤外線画像、図1(c)は従来の技術で赤外線画像を可視光カラー化した画像(中心波長780 nm、 870 nm、 940 nm の画像をそれぞれ赤、青、緑に変換して合成した画像)、図1(d)は図1(b)の赤外線画像を今回開発した技術で可視光カラー化した画像である。図1(c)と図1(d)を比較すると、図1(d)では色再現性が大幅に改善され、図1(a)と区別できない程度まで再現されているのが分かる。

なお、ここではCNNを基本とするモデルを用いているが、入力画像を変化させて学習させることにより、過学習の抑制あるいは汎化性の向上が期待される。そのため、図1(b)とその鏡映、反転、回転画像を入力画像とし、図1(a)とその鏡映、反転、回転画像を教師画像としてそれぞれ学習し、学習済みモデルに図1(b)を入力して変換し図1(d)を得ている。この際の変換時間は約30 msであり、リアルタイムでの変換が可能である。

また、シリコンイメージセンサーを用いた通常のカメラでは、赤外線領域の850 nm程度まで、カラー化フィルターの各分光特性間に差があるため、図1(b)の赤外線画像が色付いて見えるが、モノクロ画像と比較して情報量が増えるため、その分光情報も利用して学習させた。産総研が開発した赤外線カラー暗視カメラのような赤外線領域に特殊な分光特性を持たせたカメラで撮影したより情報量の多い画像を用いると学習効率をさらに上げることができる。

図2

一方、カラー画像より情報量が少ないため、その分、学習に時間が掛かるが、赤外線モノクロ画像の可視光カラー化も可能である。図2はカラーチャートを撮影したものであり、図2(a)は可視光下での通常のカラー画像、図2(b)は赤外線照射下での通常の赤外線モノクロ画像(中心波長870 nm) 、図2(c)は従来の赤外線カラー画像(中心波長780 nm、 870 nm、940 nm)、図2(d)は図2(b)を、CNNモデルを用いて変換した赤外線カラー画像である。

図3

図2(c)に示すように、従来の赤外線カラー画像では、赤外線が透過しやすい紙や布などの薄い素材に対してはカラー化が困難であったが、図2(d)に示すように、可視光カラー画像を教師画像として学習する深層学習を用いれば、赤外線領域に分光情報のない赤外線モノクロ画像もカラー化でき、しかも、図2(c)と比べて色再現性が格段に改善しているのが分かる。

図3は、青色のプラスチックボードの前に置いたターンテーブル上に、赤、緑、青のイーサーネットコネクタキャップを乗せた被写体一式を、ターンテーブルの回転中に撮影・録画した動画の特徴的な２組のコマを示す。ここで、図3(a)、(b)のそれぞれの左上は可視光動画の１コマ、右上は赤外線動画の１コマ、左下は赤外線動画をCNNモデルにより変換した赤外線カラー動画の１コマ、右下は赤外線動画をRNNモデルにより変換した赤外線カラー動画の１コマである。

なお、ここでは38秒程の赤外線動画とそれに対応し教師動画とする可視光動画の各1153コマを用いてそれぞれCNNモデルまたはRNNモデルにより学習させ、それぞれの学習済みモデルに赤外線動画を入力してそれぞれの赤外線カラー動画を得ている。

RNNモデルは学習に時間が掛かるため、図3(a)ではRNNモデルによる画像に学習不足によると思われる粗さが残っているが、図3(b)ではCNNモデルよりRNNモデルによる画像の方が優れているように見える。画像の特徴量から色を推定するCNNモデルでは、類似した形状の物体がある場合、識別に混乱が生じる場合もあるが、時系列情報間の関連性を考慮するRNNモデルではそれが改善されていることを示していると考えられる。

本技術をさらに改善することで、視認性の高いセキュリティーカメラや夜行性動物の生態記録などへの応用が期待される。

今後の予定

今後は、深層学習のモデルの高度化やビッグデータを収集し学習させることで、汎化性の向上や画質の改善、より完全に近い色再現の実現を試みる。

用語の説明

◆人工ニューラルネットワーク: 人間の脳内にある神経回路網を、数式を用いたモデルで近似的に表現したもの。[参照元へ戻る]
◆深層学習: コンピューターを用いた機械学習の手法のひとつ。ディープラーニングとも呼ばれる。[参照元へ戻る]
◆視認性: 対象物が明瞭に見えるかどうかという特性。[参照元へ戻る]
◆機械学習: コンピューターがプログラムによりデータを機械的に反復学習し一定のパターンを見つけようとするデータ解析法。AI(Artificial Intelligence)技術の手法のひとつ。[参照元へ戻る]
◆輝度情報: 単位面積あたりの明るさに関する情報。モノクロ画像の濃淡に対応する。[参照元へ戻る]
◆相関関係: 2つの変数の間の関連性のこと。一方が変化すればもう一方も変化するような関係。[参照元へ戻る]
◆CNN: Convolutional Neural Networkの略で、深層学習の手法のひとつ。畳み込み操作により空間情報の特徴量を抽出することができるので、特に、画像の学習や情報処理に用いられる。畳み込みニューラルネットワークとも呼ばれる。[参照元へ戻る]
◆RNN: Recurrent Neural Networkの略で、深層学習の手法のひとつ。時系列情報を関連付けて扱うことができるので、時間変化するものの学習や未来予測に適している。再帰型ニューラルネットワークとも呼ばれる。[参照元へ戻る]
◆過学習: 深層学習におけるモデルが、学習するデータに適合し過ぎ、汎化性が低下すること。[参照元へ戻る]
◆汎化性: 深層学習におけるモデルの予測性能。[参照元へ戻る]

お問い合わせ

お問い合わせフォーム