【お知らせ】

Adobe Acrobat Readerの特定のバージョンに、一部のPDFが開けないバグが発生しております。PDFが開けない場合、お使いのAcrobat Readerを最新版へアップデートの上お試しください。

2023年12月25日

～見た目のバラエティが豊かなカテゴリもうまく認識～

パナソニックHD、多様な画像特徴を滑らかに捉える画像分類AIを開発

パナソニックホールディングス株式会社（以下、パナソニックHD）は、従来のAIが苦手とする「種類や撮影条件によって同一カテゴリ内の見た目が多様になる」場合にも、精度良く画像認識が可能なAI技術を開発しました。

画像認識AIは、画像中の物体の特徴を捉えカテゴリを分類することで物体の認識を実現します。一方、「電車」「犬」など同じカテゴリに属しても、車種や犬種などのサブカテゴリ間で見た目が大きく異なる例も少なくありません。さらに同じ物体でも、向き・天候・光の当たり具合・背景など撮影条件の違いにより見た目が異なる例も多く、この見えの多様性をどう扱うかが、課題になっています。そこで従来はサブカテゴリ内の類似性や同一カテゴリに共通する特徴を見つけられるよう分類アルゴリズムを工夫することで、多様性に左右されず頑健に認識することを目指す研究が行われていました。しかしながら、様々な現場でAIの展開が進み、大量の多様な画像を扱うようになると、「共通する特徴を見つける」というアプローチでは、特に同一カテゴリ内に「見えの傾向が異なる、より細かいカテゴリ」が存在する場合（多峰性分布）、それらをうまく同じカテゴリの物体として推定できなくなり、認識精度の低下をもたらすことが知られています。

そこで当社は、見えの違いを敢えて生かすことに着目し、2次元の正規直交行列により画像の多様性を捉える分類アルゴリズムを新たに開発しました。ベンチマークデータセットを用いた実証実験^*1では、AIが苦手とする「多峰性分布」のデータに対しても高精度に画像分類を行えることを実証しました。

本技術は、パナソニックグループのトップ人材育成プログラムREAL-AI^*2の研究成果として、2024年1月4日から2024年1月8日に米国ハワイで開催されるコンピュータビジョン分野のトップカンファレンスIEEE/CVF Winter Conference on Applications of Computer Vision (WACV 2024)で発表します。

パナソニックHDは、社会実装を加速するAI技術の研究・開発とAIトップ人材の育成を通して、お客様のくらしやしごとの現場へのお役立ちに貢献していきます。

■技術の内容

画像認識技術の応用が進み、技術の展開先はこれまで利用されてこなかった場面にも広がりを見せています。いわゆる「画像認識を適用しやすい」現場に限らない応用が進むにつれ、従来のAIが苦手とする「多様な見え方をする同じ物体」への対処が求められています。

従来の深層学習の枠組みにおいては、AIモデルは基本的に見えが似たものが同じカテゴリに属するように学習していきます。一方で、特に近年、分類性能を向上させるために、データの数と見えのバリエーションを著しく増加させて学習させることが一般的になっています。これにより、撮影方向や、光の加減、背景の違いなどによって、全く異なる見え方をする物体であっても、同じ物体は同一カテゴリである、と判別することができるようになります。そのため、大量のデータが包含する多様な見えに惑わされず、対象の物体に共通する「本質的な特徴」をいかにうまく学習させるか、という点が着目されてきました。

一方、カテゴリ内の「見え」の分布は実は均一ではなく、同一カテゴリ内に「見えの傾向が連続的に異なる、より細かいカテゴリ」が複数存在します（多峰性分布）。

例えば、図1の「鳥」カテゴリには、「空を飛んでいる鳥」「草原の鳥」「木に留まっている鳥」「鳥の頭」のように、同じ「鳥」でも異なる傾向の画像群が存在し、それらの画像群それぞれが対象に関する豊かな情報を有しています。ここで「本質的な特徴」にフォーカスしてしまうと、せっかく画像群が有していた多様な情報を捨て去ることになります。

そこで我々は、物体の多様な見え方に関する情報を積極的に活用することでAIが苦手とする「多峰性分布」を有する画像の認識能力を上げるアルゴリズムを開発しました。具体的には、特徴の分布を連続的に捉えるため、従来1次元のベクトルのみが通常用いられてきた分類モデルの重みベクトルを、2次元の正規直交行列に拡張しました。これにより、重み行列の各要素が画像のバリエーション（背景の色や、物体の向きなど）を表現できるようにしました。

ベンチマークデータセットに対する実証実験^*1の結果、本手法は図1に示すように、「鳥」のような見えが非常に多様なカテゴリに含まれる画像特徴を連続的に捉えられる分類器を導入することで、同じ物体として分類すべき特徴量群の淵を特定できることを示しました（星印が、本手法が捉えた「鳥」カテゴリの淵）。その結果、図2に示すように、「バス」「路面電車」のような見えが近く分類が難しいようなケースでも、従来法のように見た目が近い別の乗り物に惑わされることなく、同一カテゴリに属する画像を見つけ出すことに成功しました。

シンプルなアルゴリズムのため、一般的な深層学習ベースの画像認識モデル（ResNet-50）に本アルゴリズムを追加した際のメモリ量増加は実用時の試算（10クラス）で0.1％程度であり、わずかなメモリ増加で認識精度と説明性の向上が期待できます。

図1 本手法での画像分類結果を示す図。左はAIによる画像分類結果について、異なるカテゴリを異なる色で示し二次元にマッピングした図。中央は、緑色で示す「鳥」カテゴリに対し、分類モデルの重み行列の各成分に対応する特徴量を示した図。右は、中央の図に示す青、オレンジ、黄、赤の星印からそれぞれ近い順に画像群を表示した図。上から順に、青：空に飛ぶ鳥、オレンジ：草原の鳥、黄：木の鳥、赤：鳥の頭、という異なる特徴（多峰性）を持った画像がそれぞれ近くなるような分類が出来ている。このことから、本手法は、人の感覚とあまり違和感のない、同一カテゴリにおける多峰性をうまく表現できる分類モデルが学習できているといえる。（採択論文より引用 © 2024 IEEE）

図2 同一カテゴリの画像を探してくる（query）タスクにおける、従来法DNC^*3（左）と提案法（右）の認識結果。一行目はバス、二行目は電車、三行目は路面電車の画像を探すタスク。
従来法は見た目が近い別の乗り物を見付けてきた一方、提案法は見た目のバリエーションが豊かな形で乗り物の画像を見つけ出せている。（採択論文より引用 © 2024 IEEE）

■今後の展望

本手法は従来のAIが苦手とする「多様な見え方をする同じ物体」の特徴を滑らかに捉えた画像認識を行うことが可能であり、特にモビリティ、製造、ロボティクスをはじめとする、多様な見え方をする現場での高度な画像理解が求められる場面における貢献が期待できます。

今後もパナソニックHDは、AI技術の社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していきます。

*1 画像認識のベンチマークデータセットであるCIFAR-10／100，ImageNetに対するクラス分類タスク。

*2 先端技術の素早い事業展開と価値創出を行うトップ人材の育成により、パナソニックグループの先端AI研究開発を牽引するべく全社横断で組織された社内研究グループ。立命館大学教授でパナソニックHDの社員でもある谷口忠大教授や、中部大学山下隆義教授の指導のもと、若手からエキスパートまで多くのメンバーがトップカンファレンスへ挑戦し、これまで多数の研究が採択されている。

*3 Wang, W., Han, C., Zhou, T. and Liu, D.: Visual Recognition with Deep Nearest Centroids, The Eleventh International Conference on Learning Representations (2023).

■論文情報

https://openaccess.thecvf.com/content/WACV2024/html/Goto_Learning_Intra-Class_Multimodal_Distributions_With_Orthonormal_Matrices_WACV_2024_paper.html
本研究は、パナソニックHD テクノロジー本部の後藤潤平、中田洋平、安倍清史、石井育規と、中部大学教授の山下隆義氏との連携による研究成果であり、パナソニックグループのAIトップ人材育成プログラムREAL-AIに参画した入社3年目の社員が、エキスパートの指導を受けながら主著者として取り組んだものです。