2024年9月6日
- 技術・研究開発
- トピックス
Adobe Acrobat Readerの特定のバージョンに、一部のPDFが開けないバグが発生しております。PDFが開けない場合、お使いのAcrobat Readerを最新版へアップデートの上お試しください。
パナソニック ホールディングス株式会社(以下、パナソニックHD)は、従来のAIが苦手とする「種類や撮影条件によって同一カテゴリ内の見た目が多様になる」場合にも、精度良く画像認識が可能なAI技術を開発しました。
画像認識AIは、画像中の物体の特徴を捉えカテゴリを分類することで物体の認識を実現します。一方、「電車」「犬」など同じカテゴリに属しても、車種や犬種などのサブカテゴリ間で見た目が大きく異なる例も少なくありません。さらに同じ物体でも、向き・天候・光の当たり具合・背景など撮影条件の違いにより見た目が異なる例も多く、この見えの多様性をどう扱うかが、課題になっています。そこで従来はサブカテゴリ内の類似性や同一カテゴリに共通する特徴を見つけられるよう分類アルゴリズムを工夫することで、多様性に左右されず頑健に認識することを目指す研究が行われていました。しかしながら、様々な現場でAIの展開が進み、大量の多様な画像を扱うようになると、「共通する特徴を見つける」というアプローチでは、特に同一カテゴリ内に「見えの傾向が異なる、より細かいカテゴリ」が存在する場合(多峰性分布)、それらをうまく同じカテゴリの物体として推定できなくなり、認識精度の低下をもたらすことが知られています。
そこで当社は、見えの違いを敢えて生かすことに着目し、2次元の正規直交行列により画像の多様性を捉える分類アルゴリズムを新たに開発しました。ベンチマークデータセットを用いた実証実験*1では、AIが苦手とする「多峰性分布」のデータに対しても高精度に画像分類を行えることを実証しました。
本技術は、パナソニックグループのトップ人材育成プログラムREAL-AI*2の研究成果として、2024年1月4日から2024年1月8日に米国ハワイで開催されるコンピュータビジョン分野のトップカンファレンスIEEE/CVF Winter Conference on Applications of Computer Vision (WACV 2024)で発表します。
パナソニックHDは、社会実装を加速するAI技術の研究・開発とAIトップ人材の育成を通して、お客様のくらしやしごとの現場へのお役立ちに貢献していきます。
画像認識技術の応用が進み、技術の展開先はこれまで利用されてこなかった場面にも広がりを見せています。いわゆる「画像認識を適用しやすい」現場に限らない応用が進むにつれ、従来のAIが苦手とする「多様な見え方をする同じ物体」への対処が求められています。
従来の深層学習の枠組みにおいては、AIモデルは基本的に見えが似たものが同じカテゴリに属するように学習していきます。一方で、特に近年、分類性能を向上させるために、データの数と見えのバリエーションを著しく増加させて学習させることが一般的になっています。これにより、撮影方向や、光の加減、背景の違いなどによって、全く異なる見え方をする物体であっても、同じ物体は同一カテゴリである、と判別することができるようになります。そのため、大量のデータが包含する多様な見えに惑わされず、対象の物体に共通する「本質的な特徴」をいかにうまく学習させるか、という点が着目されてきました。
一方、カテゴリ内の「見え」の分布は実は均一ではなく、同一カテゴリ内に「見えの傾向が連続的に異なる、より細かいカテゴリ」が複数存在します(多峰性分布)。
例えば、図1の「鳥」カテゴリには、「空を飛んでいる鳥」「草原の鳥」「木に留まっている鳥」「鳥の頭」のように、同じ「鳥」でも異なる傾向の画像群が存在し、それらの画像群それぞれが対象に関する豊かな情報を有しています。ここで「本質的な特徴」にフォーカスしてしまうと、せっかく画像群が有していた多様な情報を捨て去ることになります。
そこで我々は、物体の多様な見え方に関する情報を積極的に活用することでAIが苦手とする「多峰性分布」を有する画像の認識能力を上げるアルゴリズムを開発しました。具体的には、特徴の分布を連続的に捉えるため、従来1次元のベクトルのみが通常用いられてきた分類モデルの重みベクトルを、2次元の正規直交行列に拡張しました。これにより、重み行列の各要素が画像のバリエーション(背景の色や、物体の向きなど)を表現できるようにしました。
ベンチマークデータセットに対する実証実験*1の結果、本手法は図1に示すように、「鳥」のような見えが非常に多様なカテゴリに含まれる画像特徴を連続的に捉えられる分類器を導入することで、同じ物体として分類すべき特徴量群の淵を特定できることを示しました(星印が、本手法が捉えた「鳥」カテゴリの淵)。その結果、図2に示すように、「バス」「路面電車」のような見えが近く分類が難しいようなケースでも、従来法のように見た目が近い別の乗り物に惑わされることなく、同一カテゴリに属する画像を見つけ出すことに成功しました。
シンプルなアルゴリズムのため、一般的な深層学習ベースの画像認識モデル(ResNet-50)に本アルゴリズムを追加した際のメモリ量増加は実用時の試算(10クラス)で0.1%程度であり、わずかなメモリ増加で認識精度と説明性の向上が期待できます。
本手法は従来のAIが苦手とする「多様な見え方をする同じ物体」の特徴を滑らかに捉えた画像認識を行うことが可能であり、特にモビリティ、製造、ロボティクスをはじめとする、多様な見え方をする現場での高度な画像理解が求められる場面における貢献が期待できます。
今後もパナソニックHDは、AI技術の社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していきます。
*1 画像認識のベンチマークデータセットであるCIFAR-10/100,ImageNetに対するクラス分類タスク。
*2 先端技術の素早い事業展開と価値創出を行うトップ人材の育成により、パナソニックグループの先端AI研究開発を牽引するべく全社横断で組織された社内研究グループ。立命館大学教授でパナソニックHDの社員でもある谷口 忠大教授や、中部大学 山下 隆義教授の指導のもと、若手からエキスパートまで多くのメンバーがトップカンファレンスへ挑戦し、これまで多数の研究が採択されている。
*3 Wang, W., Han, C., Zhou, T. and Liu, D.: Visual Recognition with Deep Nearest Centroids, The Eleventh International Conference on Learning Representations (2023).
https://openaccess.thecvf.com/content/WACV2024/html/Goto_Learning_Intra-Class_Multimodal_Distributions_With_Orthonormal_Matrices_WACV_2024_paper.html
本研究は、パナソニックHD テクノロジー本部の後藤 潤平、中田 洋平、安倍 清史、石井 育規と、中部大学教授の山下 隆義氏との連携による研究成果であり、パナソニックグループのAIトップ人材育成プログラムREAL-AIに参画した入社3年目の社員が、エキスパートの指導を受けながら主著者として取り組んだものです。
・WACV 2024 公式サイト
https://wacv2024.thecvf.com/
・Panasonic×AI WEBサイト
https://tech-ai.panasonic.com/jp/
・Panasonic×AI X
https://twitter.com/panasonic_ai
記事の内容は発表時のものです。
商品の販売終了や、組織の変更等により、最新の情報と異なる場合がありますのでご了承ください。