【お知らせ】

Adobe Acrobat Readerの特定のバージョンに、一部のPDFが開けないバグが発生しております。PDFが開けない場合、お使いのAcrobat Readerを最新版へアップデートの上お試しください。

画像:パナソニックHD、拡散型視覚言語モデルによるマルチモーダルAI「LaViDa」を開発

2025年11月27日

技術・研究開発 / プレスリリース

パナソニックHD、拡散型視覚言語モデルによるマルチモーダルAI「LaViDa」を開発

パナソニックR&Dカンパニー オブ アメリカ(以下、PRDCA)およびパナソニック ホールディングス株式会社(以下、パナソニックHD)は、UCLAの研究者らと共同で、拡散モデルを用いたマルチモーダルAI(※1)「LaViDa」を開発しました。
近年、マルチモーダルAIは大規模言語モデルの成功を取り入れたモデル大規模化により性能を高めてきましたが、従来の自己回帰型による文章生成では文章量が増えるにつれ、生成時間が増加することが課題でした。今回開発したLaViDaでは、文章の生成を拡散モデルで行うことで生成のスピードを可変にすることが可能になり、既存の自己回帰型手法と同等精度で約2倍の高速化を達成しました。

本技術は、先進性が国際的に認められ、AI・MLのトップカンファレンスであるNeurIPS 2025に採択されました。2025年12月3日から2025年12月5日までアメリカ、サンディエゴで開催される本会議で発表します。

■技術の内容

<背景・課題>

パナソニックHDとPRDCAでは、マルチモーダルAIに関する研究に取り組んでいます。昨今、大規模言語モデルの分野において、文章、プログラミングコードなどの生成を拡散モデルで行う方式が登場し、従来の自己回帰型の生成モデルに比べ高速に文章を生成できることから注目を集めています。また、文の先頭から1トークンずつ生成する自己回帰型の手法では、文章全体の構造を踏まえて生成することができないため、詩のように特定のフォーマットの制約のもと、文章を生成するといったタスクが苦手であり、拡散モデルの適用が期待されます。しかしながら、画像と言語を取り扱うマルチモーダルAIの分野においてはいまだ自己回帰型の手法が中心で拡散モデルを導入した手法はありませんでした。

<技術の特長>

図1 拡散言語モデルの仕組み

拡散モデルを用いて文章のような離散的なデータを生成する仕組みは、文章を構成する各トークン(※2)をランダムにマスクトークンに置き換えるマスキング処理と、マスクトークンから元のトークンを復元するアンマスキング処理から構成されます(図1)。しかし、自己回帰型のマルチモーダルAIモデルを拡散モデルにそのまま置き換えただけでは(1)毎回のトークン生成に要するアテンション(※3)計算が重くなる、(2)画像の説明文にとって重要な単語が学習されない(マスキングされない)可能性が高い、という二つの課題が現れます。
このアテンション計算が重くなる課題は、予測対象のトークンが、自己回帰型モデルの場合は既に生成した過去のトークンのみを参照してアテンション計算すれば良いのに対して、拡散モデルでは常に文章全体のトークンを参照してアテンション計算しなければならないことに起因します。
こうした課題を解決するため、当社は計算量削減のために入力画像と質問文のトークンのアテンション計算から解答文のトークンを排除する工夫を導入しました。図2に示すアテンションマスクは、アテンション計算を行うクエリとキーの組み合わせを着色(緑)で表示したものです。行がクエリ、列がキーを表しており、Iが画像トークン列、Pが質問文のトークン列、Xtがtステップにおける解答文のトークン列を表します。自己回帰型(左図)では過去のトークンのみを参照してアテンションマップを計算するので図の白い部分は計算不要です。拡散モデル(中央)では全てのトークンを参照してアテンションマップを計算する必要があります。当社が提案するPrefix-DLM(右)では画像トークンと質問文のトークンのアテンション計算から解答文のトークンを排除する(白い部分)ことで、計算を効率化しています。
(2)の課題については、学習時に同じ文章に対してお互いのマスクするトークンが被らないような相補的な2通りのマスキングを用意して両方のアンマスキングを学習する、という工夫を取り入れることにより、文章の全てのトークンが必ず学習されるようにしています。

図2 各手法のアテンションマスク

図3 相補的なマスキング

※1 画像、テキストなど複数の種類の情報を同時に扱えるAIのことを指す

※2 文章や画像を処理しやすくするために細かく分割した最小単位(単語・サブワード)のこと

※3 トランスフォーマーが入力系列の各部分同士の関連度を計算し、重要度に応じて情報を選択・統合するための機構

<評価結果>

図4 性能と生成効率の比較

評価実験では、自然画像のQ&Aタスクから、数学、科学の証明問題、またチャートやグラフが多数含まれるドキュメントの内容理解などさまざまな形式のデータセットを用いて有効性を検証しました。図4に、各評価データセットにおける既存手法との性能比較結果(左)、横軸に生成にかかる時間、縦軸に生成結果の性能をプロットしたグラフ(右)を示します。右のグラフ中の“NFE”は、拡散モデルの1回のステップでどれぐらいの割合のトークンを生成するかを表す指標です。NFEが下がると1回のステップで生成するトークン数は多くなります。その分、生成に必要なステップ数が減少して速度が速くなる一方、性能は減少する右肩上がりの傾向を示します。
LaViDaはいずれのデータセットにおいても既存の自己回帰手法を上回る性能を獲得しました。また生成効率においても既存の自己回帰手法より高速に文章生成を行えることを確認しています。

図5 定型フォーマットの文章生成
左図では詩の生成タスクを例にLaViDaと自己回帰型の生成結果を表します。
右図では画像の内容理解をjsonフォーマットの形式で出力する生成結果を表します。

また、図5では画像の内容を詩やjson形式といった特定の文章フォーマットに沿って生成する例を示しています。従来の自己回帰型の手法ではプロンプトの中に細かくルールを指定する必要があり、誤認識が起きやすい原因となっていましたが、LaViDaではアンマスキングの仕組みを使うことで生成することができます。

■今後の展望

今回開発したLaViDaは拡散モデルを用いて文章生成を行うマルチモーダルAIです。現在、パナソニックグループでは全社的な業務効率化・自動化を目的としたAIエージェントの導入を進めていますが、各現場に存在する様々な形式のドキュメントや資料は必ずしもAIエージェントにとって理解しやすいものではありません。本手法を用いて統一されたフォーマットに整形することでAIエージェントの導入を加速したいと考えています。
今後もパナソニックHDは、AIの社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進します。

【関連情報】

  • 発表論文 LaViDa: A Large Diffusion Language Model for Multimodal Understanding
    本研究は、PRDCAのKonstantinos Kallidromitis、UCLAのShufan LiらとパナソニックHDの加藤 祐介、小塚 和紀による共同研究成果です。

arXivリンク https://arxiv.org/abs/2505.16839

記事の内容は発表時のものです。
商品の販売終了や、組織の変更などにより、最新の情報と異なる場合がありますので、ご了承ください。

配信元:
パナソニックホールディングス株式会社
カテゴリ:

画像ダウンロード

パナソニックHD、拡散型視覚言語モデルによるマルチモーダルAI「LaViDa」を開発
拡散言語モデルの仕組み
各手法のアテンションマスク
相補的なマスキング
性能と生成効率の比較
定型フォーマットの文章生成

注目ニュース