
2025年12月15日
- 技術・研究開発
- プレスリリース
Adobe Acrobat Readerの特定のバージョンに、一部のPDFが開けないバグが発生しております。PDFが開けない場合、お使いのAcrobat Readerを最新版へアップデートの上お試しください。

パナソニックR&Dカンパニー オブ アメリカ(以下、PRDCA)およびパナソニック ホールディングス株式会社(以下、パナソニックHD)は、UCLAの研究者らと共同で、推論時にAIが自らの生成結果を振り返って改善する画像生成技術Reflect-Ditを開発しました。
近年、画像生成AIは大規模データ、大規模モデルによる学習により性能を高めてきましたが、膨大な計算資源や学習時間が必要になり開発の負担が大きい問題を抱えています。
今回開発したReflect-Ditでは、推論時に生成画像の改善点をテキスト形式で画像生成AIに直接フィードバックする新たなアプローチにより、学習をしなくても生成結果を自動で改善する手法を開発しました。
本技術は、先進性が国際的に認められ、AI・Computer VisionのトップカンファレンスであるIEEE/CVF International Conference on Computer Vision (ICCV) 2025に採択されました。2025年10月19日から2025年10月23日までアメリカ、ハワイで開催される本会議で発表します。
パナソニックHDとPRDCAでは、画像生成AIに関する研究に取り組んでいます。昨今、大規模言語モデルの分野において、推論時に追加の計算を行い生成結果を自動で改善する技術が注目を集めています。しかしながら、画像と言語両方を取り扱うマルチモーダルモデルの分野において、推論時の改善技術は発展途上であり、既存研究では画像生成AIが自らの生成結果を振り返る仕組みがないため、とにかく大量の画像を生成(数千枚に上ることも)し、その中から最も良い画像を選定する方法(Best-of-N)が主流で改善効率に課題がありました。
より短時間に高品質な画像を生成することを目指し、Reflect-Ditは生成された画像の改善点をテキスト形式で画像生成AIに直接フィードバックする技術を開発しました。具体的には画像生成AIの入力部分にフィードバック内容を処理するネットワークを新たに追加しました。(図1)生成された画像とテキストプロンプトを視覚言語モデル(VLM)が見比べて、改善点をテキストで記述し、画像生成AIに入力することで、AIが自らの生成結果を振り返り、次の生成に生かす自動改善ループを実現しました。(図2)
図1 Reflect-Ditのアーキテクチャ
フィードバック処理部(赤枠)にVLMが生成したフィードバック内容(生成画像と改善点のセット)を入力する
図2 テキストフィードバックを用いた自動改善ループ
VLMが改善点を画像生成AIにフィードバックすることで人手を介さない完全自動の改善ループを開発した
評価実験では、フィードバック処理部を持たない既存の手法(Best-of-N)と本手法に対して、指定された物体の個数(count)、属性(attribution)、位置(Pos)など様々な項目から画像が正しく生成されているかを比較しました。図3によれば、本手法(SANA-1.0-1.6B+Reflect-DiT)と既存手法(SANA-1.0-1.6B+Best-of-20)をそれぞれ20回ずつ生成し生成品質を比較した結果、いずれの評価項目においても本手法がより高い性能を示していることが確認されました。また同じ性能を得るのにどれだけ画像を生成する必要があるかの観点でも評価を行い、本手法は既存手法に比べて約5分の1の生成回数で同等の性能を得ることを確認し、より効率的に画像を改善できることを証明しました。
図3 評価実験結果
指定された物体の個数(count)、属性(attribution)、位置(position)とその合計(Overall)それぞれの生成品質を表す。数値が高いほど高品質
今回開発したReflect-Ditは推論時に生成画像を自動で改善する技術です。例えば、住宅事業における顧客提案の際の住宅レイアウト・照明デザインカタログの作成に本手法を適用することで、営業担当者は手元のPCで簡単にカタログの編集を行うことができ、業務効率化が期待できます。
今後もパナソニックHDは、AIの社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していきます。
発表論文“Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection”
本研究は、PRDCAのKonstantinos Kallidromitis、UCLAのShufan LiらとパナソニックHDの加藤 祐介、小塚 和紀による共同研究成果です。
arXiv:https://arxiv.org/pdf/2503.12271
なお、ICCV 2025には、スタンフォード大学との共同研究成果である、一人称視点映像からの動作推定・生成技術 “UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation”も採択されました。詳細は下記プレスをご覧ください。
[プレスリリース]パナソニックHD、一人称視点映像からの動作推定・生成を可能にする「UniEgoMotion」を開発(2025年10月17日)
https://news.panasonic.com/jp/press/jn251017-3
あわせてパナソニック コネクトから、ICCV 2025 併設ワークショップ LIMIT Workshop(Representation Learning with Very Limited Resources: When Data, Modalities, Labels, and Computing Resources are Scarce)に下記論文が採択されました。
Intraclass Compactness: A Metric for Evaluating Models Pre-Trained on Various Synthetic Data
Tomoki Suzuki, Kazuki Maeno, Yasunori Ishii, Takayoshi Yamashita
https://openreview.net/pdf?id=G2WCuOVVti
Panasonic×AI ウェブサイト
https://tech-ai.panasonic.com/jp/
Panasonic×AI X
https://x.com/panasonic_ai
記事の内容は発表時のものです。
商品の販売終了や、組織の変更などにより、最新の情報と異なる場合がありますので、ご了承ください。