2ヶ月前

RGNet: 長尺ビデオの統一されたクリップ検索とグラウンディングネットワーク

Hannan, Tanveer ; Islam, Md Mohaiminul ; Seidl, Thomas ; Bertasius, Gedas
RGNet: 長尺ビデオの統一されたクリップ検索とグラウンディングネットワーク
要約

長時間の動画(20〜120分)内で特定の瞬間を見つけることは、針を藁の山から見つけるような大きな課題となっています。既存の短い動画(5〜30秒)の位置特定手法をこの問題に適用すると、性能が著しく低下します。実際の多くの動画、例えばYouTubeやAR/VRで見られるものなどは長時間であるため、この課題に対処することは重要です。既存の手法は通常、クリップ検索と位置特定の2段階で動作しますが、この分離されたプロセスは特定の瞬間検出に必要な細かいイベント理解を制限しています。本研究では、RGNetを提案します。これはクリップ検索と位置特定を深く統合し、長時間の動画を複数の粒度レベル(例:クリップとフレーム)に処理できる単一ネットワークです。その核心的な構成要素は新しいトランスフォーマーエンコーダーであるRG-Encoderで、共有特徴量と相互最適化を通じて両段階を統一します。エンコーダーは疎な注意機構と注意損失を組み込むことで、粒度レベルを同時にモデル化します。さらに、訓練中に長時間動画パラダイムをより密接に模倣するための対照的なクリップサンプリング技術も導入しました。RGNetは以前の手法を超えており、MADおよびEgo4Dという長時間動画時系列位置特定(LVTG)データセットにおいて最先端の性能を示しています。

RGNet: 長尺ビデオの統一されたクリップ検索とグラウンディングネットワーク | 最新論文 | HyperAI超神経