【お知らせ】

Adobe Acrobat Readerの特定のバージョンに、一部のPDFが開けないバグが発生しております。PDFが開けない場合、お使いのAcrobat Readerを最新版へアップデートの上お試しください。

画像:Panasonic×AI

2025年4月17日

技術・研究開発 / プレスリリース

パナソニックHD、テキストと参照画像を用いて未学習の物体も指示できる対話型セグメンテーション技術を開発

パナソニックR&Dカンパニー オブ アメリカ(以下、PRDCA)およびパナソニック ホールディングス株式会社(以下、パナソニックHD)は、カリフォルニア大学 バークレー校(以下、UC Berkeley)の研究者らと共同で、言語と参照画像を用いて認識対象を指示できる対話型セグメンテーション技術 SegLLMを開発しました。

セグメンテーションとは、画像内を画素レベルで複数の領域に分割する技術です。画像認識との連携によって、例えば特定の物体を検出し、その位置や形状を正確に捉えることができます。これにより、屋内での物体認識、自動車の周辺環境認識やロボットによる物体操作など、さまざまな応用が可能となります。近年、画像認識の研究では大規模言語モデル(Large Language Model、以下、LLM)を導入して認識対象をテキストで指示する手法が増えていますが、対話的に指示を行う際、過去の対話で認識した対象をもとに新しい指示を出そうとするとテキストが複雑になり、誤認識が起こりやすいという問題があります。今回開発したSegLLMは、プロンプトにテキストと参照画像の入力を実現したことで、未学習の物体があっても指示文で物体の階層関係や物体間のインタラクションが認識可能になります。また、見た目が類似した物体が多数存在するような、より複雑なシーンで特定の物体のみを認識することに優れた技術です。

本技術は、先進性が国際的に認められ、AI・機械学習技術のトップカンファレンスであるInternational Conference on Learning Representations(ICLR 2025)に採択されました。2025年4月24日から4月28日までシンガポールで開催される本会議で発表します。

■技術の内容

図1 従来のVLMではテキストが複雑になると誤認識を起こす

パナソニックHDとPRDCAでは、セグメンテーション技術に関するVision and Language Model(VLM)(※1)の研究に取り組んでいます。昨今、言語モデルの進化によって認識対象をテキスト形式で柔軟に指定できる手法は増えていますが、対話的にセグメンテーションを行うと、過去の対話で認識した対象を基に新しい指示を出す際に、テキストが複雑になり、誤認識が起こりやすい課題がありました。

図2 SegLLMの構成

これに対し、SegLLMは、テキストと参照画像を一緒にプロンプト入力する手法です。具体的には参照画像をテキストと同じ特徴空間に埋め込みLLMに入力できる形で学習を行いました。本手法では、過去の対話でLLMが出力したセグメンテーション画像(マスク)を用いてマスクされた物体のみを切り抜いた参照画像をプロンプトにして次の指示を出すことが可能なため、テキスト入力の長さを増やさず過去の対話内容を踏まえた指示が可能です。

図3 対話型セグメンテーションデータセットにおける評価性能

本論文ではSegLLMの構成に加え、対話型セグメンテーションの学習・評価データセットも提案しています。提案した学習・評価データセットを用いた評価実験においては、既存手法では対話が進むにつれ、認識精度の劣化が大きくなるのに対して、SegLLMは精度劣化を大幅に抑えることに成功しました。(図3)

■今後の展望

今回開発したSegLLMは対話型セグメンテーションの性能を大幅に向上させる技術です。本技術は、パナソニックHDがFastLabelと開発を進めている自動アノテーションツール(※2)に実装を予定しており、従来のテキストのみの指示では検出が難しかった対象(例えば、未学習の物体や特定の人物が持っている物体など)まで適用範囲が広がることで、AI開発の効率やスピードを左右するアノテーションのコスト削減と高精度化に向けてより汎用的なツールに進化させていきます。また、このようなSegLLMの特性を活かし、CPS(サイバーフィジカルシステム)へ応用することで、多種多様な器具・工具が存在するような工場・生産ラインにおいても現場毎の学習コストを削減できるため、工場等の最適化の加速に貢献していきます。

今後もパナソニックHDは、AIの社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していきます。

※1 [プレスリリース]パナソニックHD、階層的な画像認識を実現するマルチモーダル基盤モデルを開発(2023年11月21日)
https://news.panasonic.com/jp/press/jn231121-4

※2 [プレスリリース]パナソニックHDとFastLabel、アノテーションコストの大幅削減と高精度化を両立するAI開発効率向上に向けた協業を開始(2024年9月27日)
https://news.panasonic.com/jp/press/jn240927-1

▼論文情報

SegLLM: Multi-round Reasoning Segmentation
https://arxiv.org/abs/2410.18923
本研究は、PRDCAのKonstantinos Kallidromitis、UC-BerkeleyのXudong WangらとパナソニックHDの加藤 祐介、小塚 和紀による共同研究成果です。

■関連情報

記事の内容は発表時のものです。
商品の販売終了や、組織の変更などにより、最新の情報と異なる場合がありますので、ご了承ください。

配信元:
パナソニックホールディングス株式会社
カテゴリ:

画像ダウンロード

Panasonic×AI
従来のVLMではテキストが複雑になると誤認識を起こす
SegLLMの構成
対話型セグメンテーションデータセットにおける評価性能

注目ニュース