【お知らせ】

Adobe Acrobat Readerの特定のバージョンに、一部のPDFが開けないバグが発生しております。PDFが開けない場合、お使いのAcrobat Readerを最新版へアップデートの上お試しください。

画像:AIマルチエージェントシステム

2024年7月16日

技術・研究開発 / プレスリリース

画像認識世界最高峰の学会、CVPR2024のコンペ「Ego4D EgoSchema Challenge」でパナソニック コネクトが世界で第2位の評価を獲得

~視覚と言語情報を同時に扱えるAIマルチエージェントシステムを開発~

パナソニック コネクト株式会社(本社:東京都中央区、代表取締役 執行役員 プレジデント・CEO:樋口 泰行、以下パナソニック コネクト)は、画像認識世界最高峰の学会、CVPR2024のコンペ「Ego4D EgoSchemaChallenge(※1)」にて3分間の動画を見て、「映像の中の人物の行動から、人物が何をしようとしているのかを推測してください」等の質問に対する最適な回答を5つの選択肢から選んでAI認識技術で回答するタスク(Video Question Answering:VideoQAタスク)に取り組み、開発した生成AIマルチエージェントシステムにより正解率71%を達成し、世界で2位の評価を獲得しました。

開発の背景

静止画を認識する能力と異なり、動画の内容を理解して質問に答えるためには、長時間の動画の中で時間の経過に伴い変化する様々な動きの中から重要な行動やその目的を認識して判断し、同時に言語で表現された質問文と回答文を解釈する必要があり、動画と言語の相互理解を行う高度な技術開発が求められます。
パナソニック コネクトでは、2021年の同学会で受賞歴のある動画を用いた行動予測タスクの研究開発経験(※2)を活かし、動画と自然言語処理の融合領域であるVideo Question Answeringタスクにチャレンジしました。

AIマルチエージェントシステムについて

今回本コンペに臨むに当たり、様々な質問に対して適切な回答を生成することが可能な大規模言語モデル(LLM)の活用に着目しました。大規模言語モデルの最近の研究では、AIマルチエージェントにディベートさせることで回答の精度を高める方法(※3)や、AIエージェントが複数の役割をこなすマルチペルソナアプローチ(※4)も研究が行われています。これらの既存の研究を基に、動画を分析して自動生成した複数エージェントに基づくVideoQAシステム(VDMA:Video Question Answering with Dynamically Generated Multi-Agents)を新たに開発しました。

視覚と言語情報を同時に扱うAIマルチエージェントシステムの詳細

この手法は、例えば経理処理で分からないことがあれば経理部門の人に尋ねるように、問題に合わせてどの分野の専門家に尋ねればいいかをAIが考え、その専門家AIを動的に生成して問題を解かせるアプローチです。今回の技術開発で行ったアプローチの詳細は以下の通りです。
今回のコンペでは、まず、質問文と動画をAIが分析し、質問に回答するのに適した複数の専門家と各専門家のための指示プロンプトの生成を行います。上記の複数の専門家を生成する際には、専門家役のエージェントAIに加えて、専門家の意見を取りまとめる監督役のエージェントAI(オーガナイザー)を加えたマルチエージェントAIを動的に生成します。下記の図の場合には監督役(1)と、物体検出の専門家(2)、手芸品の専門家(3)という3つのエージェントが生成されます。次に生成した物体検出の専門家(2)、手芸品の専門家(3)としてふるまうエージェントAIは、指示プロンプトに従い、動画の内容を分析して質問文プロンプトに回答します。最後に、監督役(1)が各専門家のエージェントAIの回答を踏まえ、5択の中から最もふさわしい1つの回答を選択します。この手法により、人が回答した場合の正解率76%(※5)に近い正解率を達成することが出来ました。
本AIマルチエージェントシステムはパナソニック コネクト独自の技術で、現在特許出願中です。また本技術のソースコードはGitHubにて、テクニカルレポートはarXIVにて公開済(※6)です。

AIマルチエージェントシステムを用いたVideo Question Answeringの仕組み

画像:AIマルチエージェントシステムを用いたVideo Question Answeringの仕組み

3分間の動画の時系列のスクリーンショットと質問と回答例

画像:動画スクリーンショットと質問と回答例

今後の展望

これまでの画像認識技術は、人がいること、モノがそこにあること、人の手で何かを持っているといったその場、その時の事象を把握することに限られていましたが、今回のAIマルチエージェントシステムの開発を通じて、長い動画の内容を過去からの経緯を理解して推測、判断することが可能になります。なぜ人がそこにいるのか、それを持っているのか、何をしようとしているのか、を把握することで、人が次に取るべき行動の推奨や、過去から今に至るまでの一連の行動の中から修正や改善が望まれる行動の抽出に活用できるようになると考えています。
例えば工場のものづくりの工程の中で非効率な作業を把握し、工程の見直しが可能となるため、製造の現場の改善につながります。今後は、パナソニック コネクトが事業領域として注力しているサプライチェーンの領域、製造、物流、流通の現場でのAIマルチエージェントシステムの活用を視野に、さらなる開発に取り組んでまいります。

当社は、「現場から 社会を動かし 未来へつなぐ」というパーパスを掲げ、現場にイノベーションをもたらすことで多様な人々が幸せに暮らせる、持続可能な社会の実現を目指してまいります。

※1 一人称視点の動画と、動画に関する質問文、質問に対する5つの回答文選択肢が与えられ、動画に関する質問文に対して最も適した回答文を選択すること(Video Question Answering:VideoQAタスク)を競う大会です。
※2 世界最高峰の画像認識国際学会 CVPR2021のワークショップの一つ
パナソニックが、「EPIC-KITCHENS-100 2021 Challenges」コンテスト動作予測部門で、準優勝
2021年7月9日発表
https://news.panasonic.com/jp/press/jn210709-1
Egocentric Live 4D Perception (Ego4D)
https://ego4d-data.org/

※3 Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum, and Igor Mordatch. Improving factuality and reasoning in language models through multiagent debate. ArXiv, abs/2305.14325, 2023. 1, 4.
※4 Zhenhailong Wang, Shaoguang Mao, Wenshan Wu, Tao Ge, Furu Wei, and Heng Ji. Unleashing cognitive synergy in large language models: A task-solving agent through multi-persona self-collaboration. arXiv preprint arXiv:2307.05300, 2023. 1.
※5 Karttikeya Mangalam, Raiymbek Akshulakov, and Jitendra Malik.
Egoschema: A diagnostic benchmark for very long-form video language understanding.
Advances in Neural Information Processing Systems, 36, 2024.

※6 ソースコード:https://github.com/PanasonicConnect/VDMA
テクニカルレポート:https://arxiv.org/abs/2407.03610
Egocentric Live 4D Perception (Ego4D)
Database: A large-scale first-person video database, supporting research in multi-modal machine perception for daily life activity. Ego4D Consortium 2020.
https://ego4d-data.org/

【パナソニック コネクト株式会社について】

パナソニック コネクト株式会社は2022年4月1日、パナソニックグループの事業会社制への移行に伴い発足した、B2Bソリューションの中核を担う事業会社です。グローバルで約28,300名の従業員を擁し、売上高は1兆2,028億円(2023年度)を計上しています。「現場から 社会を動かし 未来へつなぐ」をパーパス(企業としての存在意義)として掲げ、製造業100年の知見とソフトウェアを組み合わせたソリューションや高度に差別化されたハードウェアの提供を通じて、サプライチェーン、公共サービス、生活インフラ、エンターテインメント分野のお客様をつなぎ、「現場」をイノベートすることに取り組んでいます。また、人と自然が共存できる豊かな社会・地球の「サステナビリティ」と、一人ひとりが生きがいを感じ、安心安全で幸せに暮らすことができる「ウェルビーイング」の実現を目指しています。
また、「人権の尊重」と「企業価値の向上」を目的に、DEI(Diversity, Equity & Inclusion)推進を経営戦略の柱のひとつに位置づけ、多様な価値観を持つ一人ひとりがイキイキと力を発揮できる柔軟性の高い企業文化の改革に取り組んでいます。

▼パナソニック コネクト株式会社 ウェブサイト
https://connect.panasonic.com

▼パナソニック コネクト Newsroom
https://connect.panasonic.com/jp-ja/newsroom

▼パナソニック コネクト DEI(Diversity, Equity & Inclusion)
https://connect.panasonic.com/jp-ja/about/sustainability/dei

【差し替え】2024年7月16日
「AIマルチエージェントシステムを用いたVideo Question Answering の仕組み」イメージ画像2点を差し替えました。

記事の内容は発表時のものです。
商品の販売終了や、組織の変更等により、最新の情報と異なる場合がありますのでご了承ください。

配信元:
パナソニック コネクト株式会社
カテゴリ:

画像ダウンロード

AIマルチエージェントシステム
動画スクリーンショットと質問と回答例

注目ニュース