17日前
トヨタ・スマートホーム:現実世界における日常生活の活動
{ Gianpiero Francesca, Francois Bremond, Lorenzo Garattoni, Luca Minciullo, Michal Koperski, Rui Dai, Srijan Das}

要約
深層ニューラルネットワークの性能は、アノテーション付きデータの量と質に強く影響を受ける。これまでの多くの大規模な行動認識データセットは、ウェブから収集されたデータで構成されており、日常生活における実際の課題を反映していなかった。本論文では、日常生活の行動を対象とした大規模な現実世界の動画データセット「Toyota Smarthome」を紹介する。このデータセットは、スマートホーム環境で高齢者が実施した31種類の行動を、RGB+D(カラー画像と深度情報)の合計16,000本のクリップで構成している。従来のデータセットとは異なり、本データセットの映像は完全にシナリオなし(無脚本)で記録されている。その結果、以下のような複数の課題が生じている:クラス内変動の大きさ、クラスの不均衡、単純な行動と複合的な行動の混在、類似した運動パターンを持つ行動および持続時間が変動する行動の存在。行動は粗いラベルと細かいラベルの両方でアノテーションされている。これらの特徴により、Toyota Smarthomeは他の行動認識データセットと明確に区別される。近年の行動認識手法は、Toyota Smarthomeが提示するこれらの課題に対応できていないため、本研究では注目メカニズムを導入した新たな行動認識手法を提案する。具体的には、3D ConvNetを用いたポーズ駆動型の空間時系列注目メカニズムを提案する。実験の結果、本手法はベンチマークデータセットおよびToyota Smarthomeデータセットの両方で、既存の最先端手法を上回る性能を達成した。本データセットは研究目的での利用を目的として公開する。