【お知らせ】

Adobe Acrobat Readerの特定のバージョンに、一部のPDFが開けないバグが発生しております。PDFが開けない場合、お使いのAcrobat Readerを最新版へアップデートの上お試しください。

2026年5月28日

パナソニックHD、AI・コンピュータービジョンのトップカンファレンスCVPR 2026に2件の論文が採択

パナソニックホールディングス株式会社（以下、パナソニックHD）は、AI・コンピュータービジョン分野における世界最高峰の国際会議CVPR 2026に2件の論文が採択され、うち1件は特に優れた研究として「Highlight」に選出されました。2026年6月3日から2026年6月7日までアメリカコロラド州で開催される本会議で発表します。

【採択論文の概要】

■論文1：フィジカルAIの実用化を支える高効率な空間認識技術

3D空間情報を効率よく圧縮する技術により、処理する情報量の削減と高い空間認識能力の両立を実現しました。ロボティクスやフィジカルAIなど、現実世界で動作するAIの高度化に貢献します。

＜背景＞

近年、ロボットや機械が現実世界の環境を認識・判断し、自律的に行動するためのAIである「フィジカルAI」への注目が高まっています。その実現には、物体同士の位置関係を把握するなど、高度な空間認識能力が不可欠で、マルチモーダルAI^（※1）のさらなる進化が期待されています。しかしながら、従来のマルチモーダルAIを用いた空間認識技術には、空間情報を保持するための演算量が増大しやすいという課題がありました。

＜技術の特長＞

図1 高効率な空間認識技術Proxy3Dの概要

本技術は、クラスタリングによる高効率な特徴表現の圧縮と、段階的な空間認識学習を組み合わせることで、マルチモーダルAIが扱う空間情報量を抑えながら、他手法と同等以上^（※2）の空間認識性能を実現しました。例えば、従来の3D空間認識手法の一部では約8,000トークンの空間情報をマルチモーダルAIに入力するのに対し、本技術では700トークンで3D空間を表現します。本技術は、現実世界で動作するAIの将来的なリアルタイム処理への応用や、3D空間の認識や位置関係の理解が求められる領域など幅広い分野での実用化に貢献します。

＜論文情報＞

タイトル：Proxy3D: Efficient 3D Representations for Vision-Language Models Via Semantic Clustering and Alignment
arXiv：https://arxiv.org/abs/2605.08064
CVPR 2026：https://cvpr.thecvf.com/virtual/2026/poster/39196
本研究は、UC Berkeleyが主導する「BAIRオープンリサーチコモンズ^（※3）」の枠組みで開発したもので、清華大学のJerry Jiang、Haowen Sun、パナソニックR&DカンパニーオブアメリカのDenis Gudovskiy、パナソニックHDの中田洋平、奥野智行、カリフォルニア大学バークレー校のKurt Keutzer、Wenzhao Zhengによる研究成果です。

■論文2：AI開発のコストと時間を削減、効率的な学習を実現するPortable Active Learning（PAL）

AI開発における最大のボトルネックであるアノテーションのコストを大幅に削減しながら、高精度な物体検出を実現にする技術です。CVPR 2026では、新規性や技術完成度、将来性が高く評価され採択論文の中でも特に優れた研究として「Highlight」に選出されました。

＜背景＞

AIによる画像認識技術は、自動運転や工場検査、監視システムなど、さまざまな分野で活用が進んでいます。しかし、高性能なAIの開発には、大量の画像に対して人手で「どこに何が写っているか」を細かくラベル付けする“アノテーション”という作業が必要であり、多くの時間とコストが課題となっています。

＜技術の特長＞

今回開発した「Portable Active Learning（PAL）」は、不確実性、画像の多様性、クラス不均衡といった複数の要素を統合評価し、AIが「どの画像を優先的に学習すべきか」を自動で判断します。それにより、従来手法と比べて平均約20％少ないアノテーション作業で同等以上の認識性能を実現しました^（※4）。また、本技術は、さまざまなAI物体検出モデルにそのまま適用できるplug-and-play型を採用していることが特長で、従来手法で課題となっていたモデルの改造が不要となります。自動運転、エッジAI、インフラ点検、工場検査などの分野において、AI導入の低コスト化と開発の効率化に貢献します。

＜論文情報＞

タイトル：Portable Active Learning for Object Detection
arXiv：https://arxiv.org/abs/2605.10349
CVPR 2026：https://cvpr.thecvf.com/virtual/2026/poster/38968
本研究は、パナソニックHDの研究開発拠点であるパナソニックR&Dセンターシンガポールで行われた研究成果です。

今後もパナソニックHDは、AIの社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していきます。

※1 画像、テキストなど複数の種類の情報を同時に扱えるAIのことを指す。

※2 空間推論ベンチマークVSI-Benchでは、本技術は平均47.0のスコアを達成し、比較対象のマルチモーダルAI（Qwen2.5-VL-7B）に対して14.0ポイント、相対で約42％向上しました。論文内で比較したオープンソースモデルの中ではSpatial-MLLMの48.4に次ぎ高い認識性能を達成しました。

※3 産業界、学術界の垣根を越えて世界トップレベルの研究者がオープンにコラボレーションする場として設立されたAI研究機関で、2026年5月時点ではパナソニックHDのほか、Google、Metaなど16社が参画しています。

※4 PALは、COCO、PASCAL VOC、BDD100Kといった複数の公開データセットに対し、RetinaNet、Faster R-CNN、SSD、YOLOX-Tiny、YOLO11sなどの物体検出器を用いて評価した結果、従来手法と比較して同等以上の性能を達成しました。従来の最先端手法であるPPALと比較した場合、RetinaNetを用いたCOCOおよびPASCAL VOCにおいて、PALは平均で約20.7％少ないアノテーション数で同等以上の性能を実現しました。