2ヶ月前
長時間ビデオにおける多モーダルガイダンスを用いた局所化
Barrios, Wayner ; Soldan, Mattia ; Ceballos-Arroyo, Alberto Mario ; Heilbron, Fabian Caba ; Ghanem, Bernard

要約
大規模な長尺MADおよびEgo4Dデータセットの最近の導入により、研究者たちは現在の最先端手法が長尺ビデオの位置特定においてどの程度の性能を発揮するかを調査することが可能となりました。興味深い結果として、現行の位置特定手法は単独ではこの困難なタスクと設定に対処できず、その理由は長尺ビデオシーケンスを処理できないことにあることが明らかになりました。本論文では、自然言語による長尺ビデオの位置特定の性能向上のために、記述不可能なウィンドウを識別し除去する方法を提案します。我々はガイダンスモデルとベースとなる位置特定モデルから構成されるガイダンスに基づく位置特定フレームワークを設計しました。ガイダンスモデルは記述可能なウィンドウに重点を置き、ベースとなる位置特定モデルは短い時間ウィンドウを分析して、与えられた言語クエリに正確に一致するセグメントを決定します。ガイダンスモデルには2つの設計案があります:効率性と精度のバランスを取りながら、Query-Agnostic(クエリ非依存)とQuery-Dependent(クエリ依存)です。実験結果は、提案手法がMADデータセットで4.1%、Ego4D (NLQ) データセットで4.52%それぞれ最先端モデルよりも優れた性能を示していることを示しています。実験を再現するために必要なコード、データおよびMADの音響特徴量は以下のURLから入手可能です:https://github.com/waybarrios/guidance-based-video-grounding.