Command Palette
Search for a command to run...
何を見るべきか、いつ見るべきか: 動画関係検出のための時間スパン提案ネットワーク
何を見るべきか、いつ見るべきか: 動画関係検出のための時間スパン提案ネットワーク
Sangmin Woo Junhyug Noh Kangil Kim
概要
物体間の関係を特定することは、シーン理解において中心的な役割を果たします。画像領域での関係モデリングには多くの手法が提案されていますが、ビデオ領域では空間時間相互作用の難しさ(例えば、どの物体間に相互作用があるのか?関係はいつ始まり、いつ終わるのか?)により、多くの制約がありました。これまでに、ビデオ視覚関係検出(VidVRD)に対処するために2つの代表的な方法が提案されています:セグメントベースとウィンドウベースです。まず、これらの方法の限界を指摘し、新たなアプローチである「時間スパン提案ネットワーク(TSPN)」を提案します。TSPNは「何を見るべきか」を示します:物体ペアの関係性を評価することで、関係の存在確率を測定し、関係探索空間を希釈化します。また、「いつ見るべきか」も示します:完全なビデオコンテキストを利用し、すべての可能な関係の開始終了時刻(つまり、時間スパン)とカテゴリーを同時に予測します。この2つの設計により、ウィン・ウィンの状況が実現されます:既存手法よりも2倍以上の学習速度向上と2つのVidVRDベンチマーク(ImageNet-VidVDRとVidOR)で競争力のある性能を達成しています。さらに、包括的なアブレーション実験によって当社のアプローチの有効性が示されています。コードは以下のURLから入手可能です:https://github.com/sangminwoo/Temporal-Span-Proposal-Network-VidVRD