2ヶ月前

ネガティブサンプルの重要性:時系列定位のためのメトリック学習の復興

Zhenzhi Wang; Limin Wang; Tao Wu; Tianhao Li; Gangshan Wu
ネガティブサンプルの重要性:時系列定位のためのメトリック学習の復興
要約

時系列接地(Temporal Grounding)は、与えられた自然言語のクエリと意味的に一致するビデオの瞬間を特定することを目指しています。既存の手法では、通常、検出または回帰パイプラインを融合表現に適用し、研究の焦点は複雑な予測ヘッドや融合戦略の設計に置かれています。一方で、時系列接地を計量学習問題として捉える視点から、我々は相互マッチングネットワーク(Mutual Matching Network, MMN)を提案します。このネットワークは、共通埋め込み空間において言語クエリとビデオ瞬間の類似性を直接モデル化することを目的としています。この新しい計量学習フレームワークにより、負例を完全に活用することが可能になります。具体的には、相互マッチングスキームにおける異種モーダルペアの負例構築と異なるビデオ間での負例マイニングという2つの新しい観点から負例を活用できます。これらの新しい負例は、異種モーダル間の相互情報量を最大化するために、クロスモーダル相互マッチングを通じて2つのモーダルの共同表現学習を強化することができます。実験結果によると、我々が提案したMMNは4つのビデオ接地ベンチマークにおいて最先端手法と比較して非常に競争力のある性能を達成しています。さらに、MMNに基づいて第3回PICワークショップで開催されたHC-STVGチャレンジへの優勝ソリューションを提示しています。これは、共通埋め込み空間において本質的なクロスモーダル相関関係を捉えることで時系列接地に対する計量学習が依然として有望な方法であることを示唆しています。コードは以下のURLから入手可能です: https://github.com/MCG-NJU/MMN.

ネガティブサンプルの重要性:時系列定位のためのメトリック学習の復興 | 最新論文 | HyperAI超神経