HyperAIHyperAI

Command Palette

Search for a command to run...

相関に基づくクエリ依存校正の動画時間的定位

WonJun Moon; Sangeek Hyun; SuBeen Lee; Jae-Pil Heo

概要

時刻定位(Temporal Grounding)は、テキスト記述に対応するビデオ内の特定の瞬間やハイライトを特定することを指します。従来の時刻定位手法では、エンコーディングプロセスにおいて、テキストクエリとの意味的な関連性に関わらず、すべてのビデオクリップが同等に扱われます。したがって、我々はクロスモーダル注意の中でクエリに関連するビデオクリップへの手がかりを提供することを目指し、相関性ガイド付き検出トランスフォーマー(Correlation-Guided DEtection TRansformer: CG-DETR)を提案します。まず、ダミートークンを使用した適応的なクロスアテンションを設計しました。テキストクエリによって条件付けられたダミートークンは、注意重みの一部を受け取り、テキストクエリと無関係なビデオクリップが表現されることを防ぎます。しかし、すべての単語が同じようにテキストクエリとの相関性を受け継ぐわけではありません。そこで、ビデオクリップと単語との細かい相関性を推論することでクロスアテンションマップをさらにガイドします。これは、高レベル概念(つまり、瞬間と文レベル)のための共通埋め込み空間を学習し、クリップ-単語相関性を推論することで実現します。最後に、瞬間固有の特性を利用し、各ビデオのコンテキストと組み合わせて瞬間適応型注目度検出器を作成します。これにより、各ビデオクリップにおけるテキストへの関与度を利用して、各クリップのハイライト度を正確に測定できます。CG-DETRは様々なベンチマークで時刻定位に関する最先端の結果を達成しています。コードはhttps://github.com/wjun0830/CGDETR で入手可能です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
相関に基づくクエリ依存校正の動画時間的定位 | 記事 | HyperAI超神経