2ヶ月前

D3G: ガウス事前分布を用いた時間的文定位の探索と一瞥アノテーション

Hanjun Li; Xiujun Shu; Sunan He; Ruizhi Qiao; Wei Wen; Taian Guo; Bei Gan; Xing Sun
D3G: ガウス事前分布を用いた時間的文定位の探索と一瞥アノテーション
要約

時系列文書定位(Temporal Sentence Grounding: TSG)は、与えられた自然言語のクエリに基づいて、トリミングされていない動画から特定の瞬間を特定することを目指しています。最近では、弱教師あり手法は完全教師あり手法と比較して大きな性能差が依然として存在していますが、後者には手間のかかるタイムスタンプ注釈が必要です。本研究では、完全教師あり手法と同等の競争力のある性能を維持しつつ、注釈コストを削減することを目指します。この目標を達成するために、最近提案された一フレーム注釈(glance annotation)のみを必要とする視線監督時系列文書定位タスクに着目しました。この設定のもとで、私たちは動態ガウス事前分布に基づく視線注釈付き接地フレームワーク(Dynamic Gaussian prior based Grounding framework with Glance annotation: D3G)を提案します。D3Gは、意味的整合性グループ対照学習モジュール(Semantic Alignment Group Contrastive Learning module: SA-GCL)と動態ガウス事前調整モジュール(Dynamic Gaussian prior Adjustment module: DGA)から構成されています。特に、SA-GCLはガウス事前分布と意味的一貫性を組み合わせて2次元時系列マップから信頼できる正例瞬間を選択し、これにより結合埋め込み空間での正例文-瞬間ペアの整列に貢献します。さらに、視線注釈による注釈バイアスの軽減と複数のイベントからなる複雑なクエリのモデリングのために、DGAモジュールを提案しました。DGAモジュールは分布を動的に調整することで目標瞬間の真値に近似します。3つの難易度の高いベンチマークにおける広範な実験により、提案したD3Gの有効性が確認されました。D3Gは最新の弱教師あり手法よりも大幅に優れており、完全教師あり手法との性能差も縮小しています。コードは https://github.com/solicucu/D3G で公開されています。

D3G: ガウス事前分布を用いた時間的文定位の探索と一瞥アノテーション | 最新論文 | HyperAI超神経