2020年10月15日

パナソニックとStanford Vision & Learning Labが世界最大規模*1
住空間向けAI開発用マルチモーダルデータセット
「Home Action Genome」を公開

パナソニック株式会社(以下、パナソニック)と米国のStanford Vision & Learning Lab(SVL)は、世界最大規模*1の住空間向けAI開発用マルチモーダルデータセット*2「Home Action Genome」を構築し、研究者向けに公開しました。また、本データセットを用いた行動認識アルゴリズムの開発コンペティション「International Challenge on Compositional and Multimodal Perception(CAMP)」を行います。

「Home Action Genome」は、住宅内における人の日常行動を模したシーンを、カメラや熱センサなど数種類のセンサを用いて撮影・計測したデータセットです。データには、各シーンにおける人の行動内容を表すアノテーション*3が含まれています。

<データ入手方法およびCAMPへの参加方法>

下記サイトよりご確認ください。
CAMPホームページ:https://camp-workshop.stanford.edu/

今まで公開されている住空間向けデータセットは、音声や映像のデータが主体で規模が小さいものが主流でした。今回、パナソニックのデータ計測技術とSVLのアノテーションノウハウを掛け合わせることで、世界最大規模の住空間向けマルチモーダルデータセットを実現しました。
AI研究者は、本データセットを機械学習の学習用データとして用いることができるとともに、住宅内の人をサポートするAI研究に活用することができます。

当社は、一人ひとりのくらしが日々良くなっていく「くらしアップデート」の実現に向けて、今後もデータセット公開を通した共創などにより、住宅分野向けAIの開発を加速してまいります。

  • *1:2020年10月15日現在、住空間向けマルチモーダルデータセットとして(当社調べ)
  • *2:複数種類のセンサを同期させて計測し、作成したデータ
  • *3:データに対して人によって付与された意味情報

<「Home Action Genome」データセットの詳細>

・データ規模

70の行動カテゴリに対し、異なる場所および人物で取得した3500のシーンが含まれます。一つのシーンはおおよそ2~5分程度のシーケンスです。

・センサ情報

データ種別 説明
Video カメラで取得した画像情報
IR 人や物体の熱を赤外線センサのグリッドで検知し,画像形式に整形した情報
Audio マイクで取得した音声情報
RGB Light 可視光の赤、緑、青の各スペクトルの光強度
Light 室内の明るさを表す情報
Acceleration ジャイロセンサ,加速度センサによる角加速度および加速度を表す情報
Presence 赤外線センサを用いた,人の在不在情報
Magnet 地磁気センサの情報

・可視化したセンサ情報の計測データ(例)


「髭を剃る」シーンで取得されたデータの一例
グラフは各センサで取得された情報を時系列に表したもの

・アノテーション情報

本マルチモーダルデータセットには下記の情報が付与されています。

  • - Videoに対して:人の位置、オブジェクトの位置
  • - シーンに対して:シーンにおいて人が行っている行動の種類

※詳細情報は、CAMPホームページをご覧ください。


データセットに付与されたアノテーション情報の例

以上