2ヶ月前
何を予測するか?Rolling-Unrolling LSTMsとモダリティ注意を使用したエゴセントリック行動の予測
Furnari, Antonino ; Farinella, Giovanni Maria

要約
エゴセントリック行動予測は、カメラ装着者が近い将来にどの物体と相互作用し、どのような行動を行うかを理解することである。本研究では、複数の時間スケールで行動を予測するためのアーキテクチャを提案し、2つのLSTMを使用して1) 過去を要約し、2) 未来に関する予測を立てることを目指している。入力ビデオは、外観(RGB)、運動(光学フロー)、物体(物体ベースの特徴)という3つの補完的なモダリティから処理される。モダリティ固有の予測は、新しいモダリティ注意(MATT)機構によって融合され、この機構はモダリティの重み付けを適応的に学習する。2つの大規模ベンチマークデータセットでの広範な評価により、本手法がEPIC-Kitchensデータセット(2500以上の行動を含む)において最大+7%の性能向上を達成し、EGTEA Gaze+にも一般化することが示された。また、本手法は早期行動認識および行動認識タスクにも一般化することが確認されている。本手法はEPIC-Kitchensエゴセントリック行動予測チャレンジ2019年のパブリックリーダーボードで1位となっている。コードや例についてはウェブページをご覧ください:http://iplab.dmi.unict.it/rulstm - https://github.com/fpv-iplab/rulstm。以上が翻訳となります。ご確認いただければ幸いです。