【お知らせ】

Adobe Acrobat Readerの特定のバージョンに、一部のPDFが開けないバグが発生しております。PDFが開けない場合、お使いのAcrobat Readerを最新版へアップデートの上お試しください。

【訂正】2025年7月8日 本文およびダウンロード用画像に誤りがありましたので、差し替えました。
(該当箇所)図2「SparseVLM」の構成と処理(採択論文より引用)

画像:パナソニックHD、視覚情報を言語で理解するAIモデル(Vision-Language Model)を約2倍高速化する技術「SparseVLM」を開発

2025年7月4日

技術・研究開発 / プレスリリース

パナソニックHD、視覚情報を言語で理解するAIモデル(Vision-Language Model)を約2倍高速化する技術「SparseVLM」を開発

図1「SparseVLM」と既存のスパース化の比較(採択論文より引用)

パナソニックR&Dカンパニー オブ アメリカ(以下、PRDCA)およびパナソニック ホールディングス株式会社(以下、パナソニックHD)は、北京大学、復旦大学、カリフォルニア大学バークレー校、上海交通大学の研究者らと共同で、視覚情報(画像や映像の情報)を言語で理解するAIモデルであるVision Language Model(以下、VLM)を軽量化する技術「SparseVLM」を開発しました。

近年、視覚情報とテキスト情報を同時に処理し、視覚情報に対する質問に回答するAIモデルであるVLMが盛んに開発されていますが、特に高解像度の画像や長時間の映像では、AIモデルが扱う情報量が増えるため、推論時間や演算量が増大してしまうという課題があります。開発した「SparseVLM」は、入力したプロンプトに関連する視覚情報のみを処理(スパース化)するという新たなアプローチ(図1)により、画像に対する高い質問応答精度を維持しつつ、推論時間や演算量を大きく削減することに成功しました。

本技術は、先進性が国際的に認められ、AI・機械学習技術のトップカンファレンスであるThe 42nd International Conference on Machine Learning(ICML 2025)に採択されました。2025年7月13日から2025年7月19日までカナダ バンクーバーで開催される本会議で発表します。

■技術の内容

図2「SparseVLM」の構成と処理(採択論文より引用)

パナソニックHDとPRDCAでは、今回の研究を実施した大学と共同で高効率な生成AIに関する研究に取り組んでいます。昨今、大規模言語モデル(Large Language Model、以下、LLM)の持つ高い論理的推論能力や認識能力を活用すべく、LLMを組み込んで視覚情報とテキスト情報を同時に処理するVLMが注目されています。しかしながら、これらのモデルは画像や映像から抽出した視覚特徴をテキスト特徴と統合してLLMへ入力する構造であることから、特に高解像度の画像や長時間の映像では、LLMが扱う情報量が増え、回答の生成に不要な視覚特徴も処理する必要があり、推論時間や演算量が増大してしまうという課題があります。
このような視覚特徴の冗長性に着目してVLMを軽量化する手法が他にもいくつか提案されていますが、これらの既存手法は画像のみから処理する視覚特徴を選択しており、入力したテキスト情報(プロンプト)との関係性を考慮せず軽量化を行います。そのため、プロンプトに関連しない視覚特徴も処理しているという点で非効率的であり、改善の余地が残っています。

これに対し、「SparseVLM」は、入力したプロンプトに関連する視覚特徴のみを処理し、それ以外の特徴を削減(スパース化)するVLM軽量化手法を提案しました。
具体的には、プロンプトから入力した画像や映像に関連する単語を選択した上で、選択された単語に関連する視覚特徴のみを処理します(図2)。これにより、例えば「青い標識には何と書いているか?」という質問に対して、画像中の右上の標識の領域に注目して回答するなど(図1中Q-1)、入力したプロンプトに応じて回答に必要な視覚特徴のみを選択して効率的に処理することが可能です。
さらに、ほとんどの既存手法は、軽量化するためにデータセットを準備して追加で学習することが必要であるのに対し、提案手法は追加の学習不要で軽量化可能であることも大きなメリットと言えます。

図3 評価実験の結果(採択論文より引用)

評価実験では、8種の画像に対する質問応答ベンチマークにおける性能を既存手法と比較しました。その結果、軽量化前のモデルに対して平均89.3%の精度を維持しつつ、48.3%の高速化および71.9%の演算量抑制を達成し、既存手法に対する優位性が確認できました。(図3)

■今後の展望

今回開発した「SparseVLM」は、従来のVLM軽量化手法では考慮されていなかった入力プロンプトを考慮することで、質問応答精度を保ちながら処理速度を約2倍に高速化する技術です。ユーザの状態や周辺環境を視覚情報から高速に認識し、言語化することが求められる多くの分野での活用が期待できます。

今後もパナソニックHDは、AIの社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していきます。

【関連情報】

  • 発表論文 “SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference”
    本研究は、UC Berkeleyが主導する「BAIR オープンリサーチコモンズ(※)」の枠組みで開発したもので、北京大学のYuan Zhang、Chun-Kai Fan、Shanghang Zhang、復旦大学のJunpeng Maら、カリフォルニア大学バークレー校のWenzhao Zheng、Kurt Keutzer、PRDCAのDenis Gudovskiy、パナソニックHDの奥野 智行、中田 洋平による研究成果です。
    arXivリンク https://arxiv.org/abs/2410.04417
  • Panasonic×AI ウェブサイト
    https://tech-ai.panasonic.com/jp/
  • Panasonic×AI X
    https://x.com/panasonic_ai

※産業界、学術界の垣根を越えて世界トップレベルの研究者がオープンにコラボレーションする場として設立されたAI研究機関で、2025年時点ではパナソニックHDのほか、Google、Metaなど10社が参画しています。

記事の内容は発表時のものです。
商品の販売終了や、組織の変更などにより、最新の情報と異なる場合がありますので、ご了承ください。

配信元:
パナソニックホールディングス株式会社
カテゴリ:

画像ダウンロード

パナソニックHD、視覚情報を言語で理解するAIモデル(Vision-Language Model)を約2倍高速化する技術「SparseVLM」を開発
「SparseVLM」と既存のスパース化の比較
「SparseVLM」の構成と処理
評価実験の結果

注目ニュース