2024年12月19日
- 技術・研究開発
- プレスリリース
- くらし
- テクノロジー
- 地域・まち
Adobe Acrobat Readerの特定のバージョンに、一部のPDFが開けないバグが発生しております。PDFが開けない場合、お使いのAcrobat Readerを最新版へアップデートの上お試しください。
2024年12月2日
技術・研究開発 / プレスリリース
パナソニック R&D カンパニー オブ アメリカ(以下、PRDCA)およびパナソニック ホールディングス株式会社(以下、パナソニックHD)は、カリフォルニア大学などの研究者と共同で、ユーザーの「いいね」や「嫌い」といったバイナリフィードバックで生成モデルを調整し、ユーザーの目的や好みに合わせた画像を効率よく生成できる画像生成AI“Diffusion-KTO(Knowledge Transfer Optimization)”を開発しました。
近年、画像生成AIは、クリエイティブからビジネス用途まで幅広い分野で活用されていますが、画像の精緻さに加え、ユーザーの好みやニーズを反映した画像を生成できること(パーソナライゼーション)が顧客満足度の観点で重要な要素となってきています。開発したDiffusion-KTOは、一人ひとりの好みや価値観を数値化した「ユーティリティ関数」を応用した新たなアプローチにより、よりユーザーの好みに一致する高品質な画像を効率よく生成することを実現しました。本技術は、従来法と比較し画像生成AIのパーソナライズに要する手間をN倍のオーダで短縮(Nはデータセットの枚数)することが可能です。
AI開発において、AIの学習に必要なデータセットの作成は重要なプロセスで、適用する現場に合わせた学習データを集め、アノテーションと呼ばれるデータに対してラベル付けを行う作業には時間とコストがかかり、AI開発の効率やスピードを低下させる要因となっています。パナソニックHDでは、これまで、アノテーション作業を自動化する技術(※1)の開発に取り組んできました。今回の技術は、学習データの収集が困難な現場・製品に対しても、現場の特徴を反映した画像を生成できることから、AIの学習データ不足を解決するとともに、AI開発効率を向上させる技術です。パナソニックHDは、これらの技術を組み合わせることで、将来的にAI開発プロセス全体のコストを1/10にすることを目指していきます。
本技術は、先進性が国際的に認められ、AI・機械学習技術のトップカンファレンスであるNeurIPS 2024(The Thirty-Eighth Annual Conference on Neural Information Processing Systems)に採択されました。2024年12月10日から2024年12月14日までカナダ バンクーバーで開催される本会議で発表します。
パナソニックHDとPRDCAでは、生成モデルのパーソナライゼーションに関する研究に取り組んでいます。昨今、テキストから画像を生成するAIモデルが社会に与えたインパクトは大きく、既に多くのユーザーが活用しています。しかしながら、
などの理由から、ユーザーの好みの画像になるようにパラメーターを調整することは容易ではなく、ユーザーは好みの画像を得るために、プロンプトエンジニアリングを駆使しながら画像生成AIを利用しているのが現状です。
ユーザーの好みに近づくよう生成画像を調整する研究も進められていますが、「似た画像のうちどちらの画像が好ましいか」(ペアワイズ)を比較したデータを別途収集したうえで、強化学習ベースの複雑な報酬モデルにより調整を行う必要があります。
これに対し、Diffusion-KTOは、「いいね」や「嫌い」という単純なバイナリフィードバックに基づき、一人ひとりの好みや価値観を数値化したユーティリティ関数を応用するという新たなアプローチを提案しました。今回採用したユーティリティ関数は、人が現在の富を基準にして、得られる利益や損失の価値を判断するというプロスペクト理論に基づいて設計しています。バイナリフィードバックは、ユーザー毎の好みを簡単かつ効率的に収集できるため、データ収集のコストと時間を大幅に削減することが可能です。さらに、人間の意思決定に関わるプロスペクト理論をもとに設計したユーティリティ関数と組み合わせることで、よりユーザーの好みに一致した高品質な画像を効率的に生成できます。
評価実験では、Diffusion-KTOがベースモデル(SD v1-5)(※2)に対して最大87.2%の勝率を達成し、優れた性能を示すことがわかりました。特に人間の評価者は、一貫してDiffusion-KTOの生成画像をベースモデルの生成画像よりも好む結果が得られました。
今回開発したDiffusion-KTOはユーザーのバイナリフィードバックという簡単なインタラクションだけで生成モデルを調整し、ユーザーの好みに合った画像を生成可能な画像生成AIです。この技術を応用することで、AI開発に不可欠なAIの学習に用いるデータセットの作成を効率化することや、原理的には画像生成だけでなく、テキスト生成や音声生成など他の生成モデルにも応用できることから、ユーザーの好みに応じたパーソナライズが求められる多くの分野で利用できる可能性があります。
今後もパナソニックHDは、AIの社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していきます。
※1 [プレスリリース]パナソニックHDとFastLabel、アノテーションコストの大幅削減と高精度化を両立するAI開発効率向上に向けた協業を開始(2024年9月27日)
https://news.panasonic.com/jp/press/jn240927-1
※2 SD v1-5:画像生成モデルStable Diffusion v1.5
記事の内容は発表時のものです。
商品の販売終了や、組織の変更等により、最新の情報と異なる場合がありますのでご了承ください。