17日前
ホッパー:時空間推論のためのマルチホップトランスフォーマー
Honglu Zhou, Asim Kadav, Farley Lai, Alexandru Niculescu-Mizil, Martin Renqiang Min, Mubbasir Kapadia, Hans Peter Graf

要約
本稿では、動画における時空間的オブジェクト中心的推論という問題に取り組む。本研究の核となる概念は、オブジェクトの恒常性(object permanence)である。すなわち、オブジェクトが他のオブジェクトに隠蔽されたり、包含されたり、持ち運ばれたりする際でも、その位置を時系列的に推論する能力を意味する。従来の深層学習に基づくアプローチは、動画推論問題への適用において、しばしば時空間的なバイアスに悩まされる。そこで本研究では、マルチホップTransformer(Multi-hop Transformer)を用いて動画内のオブジェクト恒常性を推論する「Hopper」を提案する。入力として動画と位置推定クエリを受け取り、画像フレームとオブジェクトトラックを統合的に分析し、反復的に重要なフレームを飛び越えることで、対象オブジェクトの最終位置を予測する。また、時空間バイアスを低減するために対照学習(contrastive loss)を用いる有効性を実証している。CATERデータセットを用いた評価において、Hopperはわずか1 FPSの入力でも、わずか数フレームの重要なフレームを経由するだけで、Top-1精度73.2%を達成した。さらに、複数ステップの推論を必要とするオブジェクトの位置特定を課すCATER-hデータセットを構築することで、Hopperが長期的な推論を実現可能であることも示した。