【お知らせ】

Adobe Acrobat Readerの特定のバージョンに、一部のPDFが開けないバグが発生しております。PDFが開けない場合、お使いのAcrobat Readerを最新版へアップデートの上お試しください。

画像:質問を段階的に解く、動画認識AI「DIVE」を開発

2025年6月27日

企業・経営 / プレスリリース

パナソニック コネクト、画像認識世界最高峰の学会CVPR 2025 VidLLMsコンペティションで世界1位を獲得

~質問を段階的に解く、動画認識AI「DIVE」を開発~

パナソニック コネクト株式会社(本社:東京都中央区、代表取締役 執行役員プレジデント・CEO:樋口 泰行、以下、コネクト)は、画像認識分野における世界最高峰の国際会議「CVPR 2025」で開催されたコンペティション「Complex Video Reasoning & Robustness Evaluation」において、世界1位の成績を収めました。
本コンペにおいて、コネクトが開発した動画認識AI技術「DIVE(Deep-search Iterative Video Exploration):ダイブ」は、与えられた動画に関する複雑な質問に対して正答率81%を記録し、その性能が高く評価されました。

【開発の背景】

<ワークショップの開催案内(左)世界1位の表彰状(右)>

近年、映像データの利活用が多様なビジネス領域で加速する中で、AIが映像内容を理解し、自然言語の質問に正確に答える技術へのニーズが高まっています。
たとえば、物流現場では作業工程の記録映像をAIが解析し、改善提案を行うといった応用が期待されています。

しかし従来のAIでは、動画の「意味」や文脈を深く理解する必要がある「問い」への対応が難しく、実用化に向けた大きな課題となっていました。
こうした課題の克服に向けて、コネクトはAIの映像理解能力と自然言語による応答力を総合的に評価する場として、世界最高峰の画像認識国際会議「CVPR 2025」で開催されたコンペティションに参加しました。

【Complex Video Reasoning & Robustness Evaluationタスクの概要】

CVPR 2025で初開催されたVidLLMs Workshopでは、動画系大規模言語モデル(Video Large Language Models, VidLLMs)の性能を競うコンペティションが行われました。コネクトは、その中の「Complex Video Reasoning & Robustness Evaluation(複雑な動画理解)」部門にエントリーしました。
(詳細はVidLLMs Workshop – CVPR 2025(https://www.crcv.ucf.edu/cvpr2025-vidllms-workshop/)をご確認ください。)

「複雑な動画理解」タスクでは、複雑な文脈を含む第三者視点の動画214本と、2,400件の自由記述形式の質問セットを用いて、動画認識AIが多様で困難な状況にどう対応できるかが評価されます。

対象となる動画は、時間的順序の把握、感情や社会的背景の理解、常識に基づく推論など、11の複雑なカテゴリに分類されており、現実に近い状況下での理解力が求められます。また、あえて映っていない物体や事象について問いかける設問や、誤解を誘うような問いが含まれており、AIのハルシネーション(事実誤認)を防ぐ能力も問われるだけでなく、回答は自然言語による自由記述とされており、文脈に応じた表現力も求められます。

従来のAIモデルは正答率が約75%にとどまる一方で、人間は97%という高い正確性を示しており、この分野においては依然としてAIと人間の間に大きな性能差が存在しています。

【AI技術DIVE(ダイブ)の開発】

コネクトは、複雑で難易度の高い動画認識タスクにも的確に対応できる、動画認識AI技術「DIVE」を開発しました。本技術は、複雑な問いを分解し、段階的かつ文脈を理解しながら思考を深めていくプロセスを採用しており、近年注目されている大規模言語モデル(LLM)の長時間思考という最新トレンドを先取りしたアプローチです。

たとえば、名探偵の事件解決のように、初めから「Aさんが犯人か?」という難しい問いに直接答えるのではなく、「Aさんにはアリバイがあるか?」「Aさんに動機はあるか?」「そのアリバイは本物か?」といった複数の小さな疑問を一つずつ検証していくことで、最終的に難問を解決するアプローチです。

このような“人間のような思考プロセス”を実現するために、DIVEは次の3つの主要技術を軸に構成されています。

1. 複雑な問いを段階的に深く考える“長時間思考”プロセス

問いを構成要素ごとに分解し、それらを意味のある質問リストへと再構成することで、AIが熟考を重ねながら段階的に推論を進める設計を実現。人間のように、複雑な問いを順序立てて解く思考プロセスを実現します。

2. 重要物体に基づく、網羅的な動画要約生成技術

マルチモーダル(テキスト、画像、音声、動画など、複数の異なる種類のデータを同時に処理することが可能)な大規模言語モデルと物体検出モデルを連携させることで、映像内の重要な物体やシーンの変化を捉え、動画全体を網羅する高精度な要約情報を生成します。

3. 質問の意図を読み解く文脈理解技術

<動画認識AI「DIVE」による、動画を深く理解する長時間思考アプローチの例>

質問の背後にある目的や視点を推定することで、文脈に即した意味のある回答生成を可能にし、表面的な言葉の裏側にある意図や文脈を捉えた深い理解を実現します。

これらの技術を統合することで、DIVEは複雑な問いに対して段階的かつ柔軟に思考を重ね、最終的な解を導き出すことが可能になります。

【今後の展開】

コネクトでは、今回の成果を基に、本技術のさらなる高度化に取り組んでいきます。今後は、当社が注力するサプライチェーン領域(製造・物流・流通)を中心に、動画認識AIを活用した現場支援ソリューションの実装を推進し、業務の効率化や安全性の向上に貢献していきます。そして「現場から 社会を動かし 未来へつなぐ」というパーパスのもと、映像理解技術を通じて現場の課題を見える化し、すべての人々が安心して暮らせる持続可能な社会の実現を目指していきます。

【本件に関する特許】1件申請中

【関連情報】

CVPR 2025 VidLLMs Challenge:
https://www.crcv.ucf.edu/cvpr2025-vidllms-workshop/challenges.html

※本プレスリリース内の一部画像は、実際のコンペティションで使用されたものではなく、イメージとなっております。

【パナソニック コネクト株式会社について】

パナソニック コネクト株式会社は2022年4月1日、パナソニックグループの事業会社制への移行に伴い発足した、B2Bソリューションの中核を担う事業会社です。グローバルで約28,200名の従業員を擁し、売上高は1兆3,332億円(2024年度)を計上しています。「現場から 社会を動かし 未来へつなぐ」をパーパス(企業としての存在意義)として掲げ、製造業100年の知見とソフトウェアを組み合わせたソリューションや高度に差別化されたハードウェアの提供を通じて、サプライチェーン、公共サービス、生活インフラ、エンターテインメントのお客様をつなぎ、「現場」をイノベートすることに取り組んでいます。また、人と自然が共存できる豊かな社会・地球の「サステナビリティ」と、一人ひとりが生きがいを感じ、安心安全で幸せに暮らすことができる「ウェルビーイング」の実現を目指しています。
また、「人権の尊重」と「企業競争力の向上」を目的に、DEI(Diversity, Equity & Inclusion)推進を経営戦略の柱のひとつに位置づけ、多様な価値観を持つ一人ひとりがイキイキと力を発揮できる柔軟性の高い企業文化の改革に取り組んでいます。

▼パナソニック コネクト株式会社 ウェブサイト
https://connect.panasonic.com/jp-ja/
▼パナソニック コネクト Newsroom
https://connect.panasonic.com/jp-ja/newsroom
▼パナソニック コネクト DEI(Diversity, Equity & Inclusion)
https://connect.panasonic.com/jp-ja/about/sustainability/dei

記事の内容は発表時のものです。
商品の販売終了や、組織の変更などにより、最新の情報と異なる場合がありますので、ご了承ください。

配信元:
パナソニック コネクト株式会社

画像ダウンロード

質問を段階的に解く、動画認識AI「DIVE」を開発
ワークショップの開催案内
世界1位の表彰状
動画認識AI「DIVE」による、動画を深く理解する長時間思考アプローチの例

注目ニュース