【お知らせ】

Adobe Acrobat Readerの特定のバージョンに、一部のPDFが開けないバグが発生しております。PDFが開けない場合、お使いのAcrobat Readerを最新版へアップデートの上お試しください。

2023年11月21日

～大規模言語モデルで画像理解を高度化～

パナソニックHD、階層的な画像認識を実現するマルチモーダル基盤モデルを開発

パナソニックホールディングス株式会社（以下、パナソニックHD）は、大規模言語モデルの事前知識を活用することで、任意のテキスト入力に応じたセグメンテーション（画像中の物体を見つけ出し、画素単位で映っているものを識別すること）タスクを遂行できる画像認識向けマルチモーダル基盤モデルをカリフォルニア大学バークレー校と共同開発しました。本技術は、40以上の公開データセットを対象とした評価実験で、世界最高性能*¹を達成しました。

近年、画像認識AIの構築にかかる時間やコストの削減を見込める手法として、大規模言語モデルを応用した研究が注目されています。大規模言語モデルの事前知識を画像に取り込むにあたって、実際は異なる粒度の階層的な言語（例えば、人→顔→鼻／口／目…）が同一の物体領域に存在する場合、基本的には、階層的な関係性は無視され、領域と言語が1対1で対応する形で扱われてきました（人／顔／鼻のどれか一つ、もしくは、「人顔鼻」と繋げただけの文字列で学習、など）。

当社は、これまで無視されてきた「階層的な関係性」がAIによる高度な画像理解に必要であることに着目。異なる粒度の階層的な表現を学習する技術を開発し、従来、階層に応じて複数のモデルを用意する必要があったセグメンテーションや画像認識を、一つのモデルで実現できるようになりました。これにより、車載センサにおける危険検知や、ロボットにおける操作対象の認識、ドローンの地形分析、医療画像などの階層的な画像理解が必要とされる様々な場面で、現場でのアノテーションの負担削減が期待できます。

本技術は先進性が国際的に認められ、AI・機械学習技術のトップカンファレンスである37th Conference on Neural Information Processing Systems（NeurIPS 2023）に採択されました（採択率26.1％）。2023年12月10日から2023年12月16日に米国ニューオリンズで開催される本会議で発表します。

■技術の内容

AI技術の進展に伴い、自動運転やロボティクス、工場など幅広い分野において、より高度な画像理解を実現する技術へのニーズが高まっています。なかでも、セグメンテーションは、適用先の広さからコンピュータビジョン分野の重要なタスクとして活発に研究開発が進められてきました。ただ、ピクセル単位でのアノテーションには時間もコストもかかることが社会実装における課題となっています。
近年、自然言語処理技術の急速な発展を受け、大規模言語モデルの事前知識を活用し、所望のタスク毎に少量の追加学習データでファインチューニングするという手法が、コンピュータビジョン分野でも数多く提案されています。従来必要であった大量の学習データを準備することなく精度の高いAIを実現できるため、ここ数年で研究開発が急速に発展しています。

しかしながら、大規模言語モデルを使って画像やテキストを自在に扱うには、まだ課題があります。例えば、セグメンテーションや画像認識において、画像中に人物が写っている例を考えます。その人物領域には、通常であれば「人」ラベルが割り当てられます。また、タスクによってはその領域に「顔」や「鼻」といった粒度の異なるラベルが割り当てられる必要があります。
このように粒度の異なるラベルを同時に学習する場合、“person nose”、“dog nose”のようにラベル名を繋げて学習させるのが一般的です。ただし、この方法で学習したAIは、“giraffe nose”のように、未知のテキストが現れると途端にうまく扱えなくなる問題がありました。このようにモデルの表現能力に限界がある状態では、画像を高度に理解できているとは言えません。

今回開発したHIPIE（Hierarchical Open-vocabulary Universal Image Segmentation）は、この課題に着目し、階層別にラベルを学習させ、粒度の異なるラベルを包括的に扱える技術です。さまざまなスケールを包括することで図1に示すように所望の画像分割と、高度な画像理解ができるようになります。モデルの表現能力が格段に向上したことで、先に課題として挙げたような未知の組み合わせラベルに対応することも可能です。

図1 画像とテキストの入力に応じて階層的な画像セグメンテーションを行うHIPIEの出力結果（採択論文より引用）

図2に、HIPIEの構成を示します。まず、入力画像とテキストから画像特徴（MAE）とテキスト特徴（BERT）を抽出し、それぞれの対応関係を、Bi-Directional Cross-Attentionという双方向の関連度合いを学習できる手法で学習し、対応付けを行います（Text-Image Fusion）。
ここで、物体領域は境界で囲まれたひとつながりの比較的小規模な領域となる一方、背景領域は画像全体に不規則な形状で広く分布する傾向にありますが、HIPIEでは、画像特徴とテキスト特徴の特性を定量的に比較し、物体領域と背景領域を適切に分割することができます。さらに物体領域と背景領域を異なるデコーダーで処理するという工夫を行うことで、より効果的な画像理解に繋げました。

図3に、HIPIEと従来法としてSAM、SEEM、ODICEといった代表的なセグメンテーションモデルが対応できるタスクを比較した表を示します。HIPIEは図3に記載したセグメンテーションと物体検出、合わせて8種類のタスクを1つのモデルで実行できる技術です。また、40以上の公開データセットを対象とした評価実験において、従来法を上回る結果を残しました。

図3 本手法（HIPIE）とSAM､EEM､ODICEなど代表的なセグメンテーションモデルの対応タスクの比較（採択論文より引用）

■今後の展望

HIPIEは、オープンボキャブラリー（任意の言語で扱える）、ユニバーサル（任意の画像を扱える）、そして階層的（シーンに含まれる情報を階層的に捉えられる）という特徴を備えた画期的なセグメンテーションモデルです。
画像に映ったシーンを詳細に理解することが可能であり、特にモビリティ、製造、ロボティクスをはじめとする、高度な画像理解が求められる場面での活用が見込まれます。また、昨今、需要が高まっている基盤モデルの構築とトレーニングのハードルを下げる技術になることも期待されます。

今後もパナソニックHDは、AI技術の社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していきます。

*1 2023年11月21日現在（パナソニックHD調べ）

▼論文情報

Hierarchical Open-vocabulary Universal Image Segmentation
https://arxiv.org/abs/2307.00764
本研究は、Panasonic R&D Center AmericaのKonstantinos Kallidromitisとカリフォルニア大学バークレー校による共同主著論文で、パナソニックHD テクノロジー本部の加藤祐介、小塚和紀が参画した研究成果です。