
2025年7月14日
- 技術・研究開発
- プレスリリース
Adobe Acrobat Readerの特定のバージョンに、一部のPDFが開けないバグが発生しております。PDFが開けない場合、お使いのAcrobat Readerを最新版へアップデートの上お試しください。
パナソニック ホールディングス株式会社(以下、パナソニックHD)およびパナソニックR&Dカンパニーオブアメリカ(以下、PRDCA)は、カリフォルニア大学ロサンゼルス校(以下、UCLA)の研究者らと共同で、テキスト、画像、音といった異なるデータ形式を自由に相互変換できる(以下、Any-to-Any)マルチモーダル生成AI「OmniFlow」を開発しました。
近年、異なるデータ形式同士の変換を実現するマルチモーダルな生成AIの研究が盛んに行われていますが、学習データには通常、取り扱いたいデータ全てのペアを用意する必要があるため、取り扱いたいデータの種類が増えるとデータを取得するコストも増えてしまいます。今回開発したOmniFlowは、各データ形式に特化した生成AI(テキスト↔音、テキスト↔画像)を柔軟に組み合わせることで3組全てのモーダルから成るデータ(テキスト↔音↔画像)の枚数が少なくても高精度なAny-to-Anyモデルを学習でき、学習データの作成コストを大きく削減することに成功しました。(図1)
本技術は、先進性が国際的に認められ、AI・Computer VisionのトップカンファレンスであるCVPR 2025に採択されました。2025年6月11日から2025年6月15日までアメリカ ナッシュビルで開催される本会議で発表します。
図1 OmniFlowによる生成例
パナソニックHDとPRDCAでは、マルチモーダル生成AIに関する研究に取り組んでいます。昨今、テキスト、画像に加えて音声も取り入れたマルチモーダル生成AIが注目されていますが、テキスト、画像、音声が全て揃ったデータは入手方法が限られバリエーションを増やすにはコストがかかることが課題でした。
本課題の解決は、マルチモーダル生成AIの活用を加速するためのキーとなることから、近年活発に研究が進められています。実際、取り扱いたいデータ形式を全て含む異なるデータの組み合わせが完全に揃っていなくても学習できる手法が昨今提案されましたが、入力データを平均することで実現しており、表現能力の観点でまだ改善の余地が大きいといえます。
これに対し、既存の画像生成フローマッチング(※)の枠組みを拡張する形で、生成の過程で3つの異なるデータ特徴を連結して処理することで、平均するだけでは得られないデータ間の複雑な関係を学習することができるOmniFlowを開発しました。(図2)
※任意のデータ同士の最適な変換経路をFlow(流れ)で求める技術
近年、画像生成を始めとして、各種生成モデルに採用されるなど注目されている
図2 既存のフローマッチング(上)とOmniFlow(下)のアーキテクチャ
OmniFlowの大きな利点は、テキストから画像、テキストから音の生成に特化したAIを簡単に連結して1つのマルチモーダル生成AIを構築できることです。(図3)特化したAIはそれぞれのデータ生成に優れているため、全てのモーダルから成るデータを大量に学習しなくても高いマルチモーダル性能を獲得することができました。
図3 OmniFlowの学習プロセス
「テキスト→画像」タスク、「テキスト→音」タスクを学習済みの特化型AIを連結して再学習する
評価実験では、「テキスト→画像」、「テキスト→音」生成タスクの性能を既存手法と比較しました。(図4)結果として、OmniFlowはAny-to-Any手法(Generalist)、各タスクに特化したスペシャリスト手法の中で最良の性能を獲得することが確認されました。また、OmniFlowの学習に必要なデータサイズは他のAny-to-Any手法と比べて最大60分の1程度まで削減できることも分かりました。
図4 評価結果(左:テキスト→画像、右:テキスト→音)
Paramはモデルパラメタ数、Imagesは学習画像枚数を表す
Genは生成画像の良し悪しを表す指標で、FAD、CLAPは生成音声の良し悪しを表す
↑は数字が大きいほど良い性能、↓は小さいほど良い性能を表す
今回開発したOmniFlowは各データ形式(テキスト→音、テキスト→画像)に特化した生成AIを柔軟に組み合わせて3組全てのデータのペア(テキスト↔音↔画像)の学習枚数を少なくしても高精度なAny-to-Any手法です。この技術を工場やくらし領域など様々な現場で学習することでその現場に特化した様々な種類のデータを生成することが可能になり、マルチモーダルAIの活用領域を広げることが期待できます。
今後もパナソニックHDは、AIの社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していきます。
記事の内容は発表時のものです。
商品の販売終了や、組織の変更などにより、最新の情報と異なる場合がありますので、ご了承ください。