HyperAIHyperAI

Command Palette

Search for a command to run...

ネガティブサンプルの重要性:時系列定位のためのメトリック学習の復興

Zhenzhi Wang Limin Wang* Tao Wu Tianhao Li Gangshan Wu

概要

時系列接地(Temporal Grounding)は、与えられた自然言語のクエリと意味的に一致するビデオの瞬間を特定することを目指しています。既存の手法では、通常、検出または回帰パイプラインを融合表現に適用し、研究の焦点は複雑な予測ヘッドや融合戦略の設計に置かれています。一方で、時系列接地を計量学習問題として捉える視点から、我々は相互マッチングネットワーク(Mutual Matching Network, MMN)を提案します。このネットワークは、共通埋め込み空間において言語クエリとビデオ瞬間の類似性を直接モデル化することを目的としています。この新しい計量学習フレームワークにより、負例を完全に活用することが可能になります。具体的には、相互マッチングスキームにおける異種モーダルペアの負例構築と異なるビデオ間での負例マイニングという2つの新しい観点から負例を活用できます。これらの新しい負例は、異種モーダル間の相互情報量を最大化するために、クロスモーダル相互マッチングを通じて2つのモーダルの共同表現学習を強化することができます。実験結果によると、我々が提案したMMNは4つのビデオ接地ベンチマークにおいて最先端手法と比較して非常に競争力のある性能を達成しています。さらに、MMNに基づいて第3回PICワークショップで開催されたHC-STVGチャレンジへの優勝ソリューションを提示しています。これは、共通埋め込み空間において本質的なクロスモーダル相関関係を捉えることで時系列接地に対する計量学習が依然として有望な方法であることを示唆しています。コードは以下のURLから入手可能です: https://github.com/MCG-NJU/MMN.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています