HyperAIHyperAI

Command Palette

Search for a command to run...

長時間ビデオにおける多モーダルガイダンスを用いた局所化

Wayner Barrios Mattia Soldan Alberto Mario Ceballos-Arroyo Fabian Caba Heilbron Bernard Ghanem

概要

大規模な長尺MADおよびEgo4Dデータセットの最近の導入により、研究者たちは現在の最先端手法が長尺ビデオの位置特定においてどの程度の性能を発揮するかを調査することが可能となりました。興味深い結果として、現行の位置特定手法は単独ではこの困難なタスクと設定に対処できず、その理由は長尺ビデオシーケンスを処理できないことにあることが明らかになりました。本論文では、自然言語による長尺ビデオの位置特定の性能向上のために、記述不可能なウィンドウを識別し除去する方法を提案します。我々はガイダンスモデルとベースとなる位置特定モデルから構成されるガイダンスに基づく位置特定フレームワークを設計しました。ガイダンスモデルは記述可能なウィンドウに重点を置き、ベースとなる位置特定モデルは短い時間ウィンドウを分析して、与えられた言語クエリに正確に一致するセグメントを決定します。ガイダンスモデルには2つの設計案があります:効率性と精度のバランスを取りながら、Query-Agnostic(クエリ非依存)とQuery-Dependent(クエリ依存)です。実験結果は、提案手法がMADデータセットで4.1%、Ego4D (NLQ) データセットで4.52%それぞれ最先端モデルよりも優れた性能を示していることを示しています。実験を再現するために必要なコード、データおよびMADの音響特徴量は以下のURLから入手可能です:https://github.com/waybarrios/guidance-based-video-grounding.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています