2ヶ月前
時間動的グラフLSTMを用いた行動駆動型ビデオオブジェクト検出
Yuan Yuan; Xiaodan Liang; Xiaolong Wang; Dit-Yan Yeung; Abhinav Gupta

要約
本論文では、弱教師あり物体検出フレームワークについて調査を行いました。既存の大多数のフレームワークは、物体検出器を学習するために静止画を使用することに焦点を当てています。しかし、これらの検出器はドメインシフトの影響により動画への汎化がしばしば失敗します。そこで、私たちは日常活動の退屈な動画から直接これらの検出器を学習する方法を探求しました。バウンディングボックスを使用する代わりに、比較的容易に収集できるアクション記述を使用した教師あり学習を探索しました。しかし、一般的な問題として、人間の行動に関与していない対象物が全体的なアクション記述(「欠落ラベル」と呼ばれる)に含まれていないことがあります。この問題に対処するために、我々は新しい時系列動的グラフ長短期記憶ネットワーク(TD-Graph LSTM)を提案します。TD-Graph LSTMは、物体提案の時間相関に基づいて全動画にわたる動的グラフを構築することで、全体的な時間推論を可能とします。これにより、各フレームにおける欠落ラベル問題が、全動画内の関連する物体提案間での知識転送によって大幅に緩和されます。大規模な日常生活アクションデータセット(Charades)における広範な評価結果は、我々が提案する手法の優位性を示しています。また、Charadesで5,000以上のフレームに対する物体バウンディングボックス注釈も公開しました。私たちはこの注釈データが将来のビデオベースの物体認識に関する他の研究にも貢献すると考えています。