16日前

ガウスベースの対照的プロポーザル学習を用いた弱教師付き時系列文脈の対応付け

{Yang Liu, Yuxin Peng, Qingchao Chen, Yanjie Huang, Minghang Zheng}
ガウスベースの対照的プロポーザル学習を用いた弱教師付き時系列文脈の対応付け
要約

時間的文脈接地(Temporal sentence grounding)は、トリムされていない動画から自然言語によるクエリに最も関連性の高い瞬間を検出することを目的としています。時間的境界のラベル付けは作業が煩雑で主観的であるため、弱教師あり(weakly-supervised)な手法が近年注目を集めています。しかし、既存の多くはスライディングウィンドウによって提案領域(proposals)を生成する方法を採用しており、これにはコンテンツに依存しない、品質の低い提案が含まれます。さらに、モデルの学習において、他の動画からランダムに抽出されたネガティブな視覚言語ペアとポジティブなペアを区別させるというアプローチを取っているため、同一動画内に存在する非常に類似した動画セグメント(高齢性の混乱領域)を無視するという課題があります。本研究では、上記の制約を克服するため、対比的提案学習(Contrastive Proposal Learning: CPL)を提案します。具体的には、長時間の動画に含まれる複数のイベントを捉えるために、複数の学習可能なガウス関数を用いて、同一動画内からポジティブおよびネガティブな提案を生成します。さらに、同一動画内からネガティブサンプルを制御可能かつ「易しいものから難しいものへ」と段階的に抽出する戦略(controllable easy to hard negative proposal mining)を導入することで、モデルの最適化を容易にし、類似度の高い混乱するシーン間の区別を可能にしました。実験の結果、本手法はCharades-STAおよびActivityNet Captionsの2つのデータセットにおいて、最先端(state-of-the-art)の性能を達成しました。コードとモデルは、https://github.com/minghangz/cpl にて公開されています。

ガウスベースの対照的プロポーザル学習を用いた弱教師付き時系列文脈の対応付け | 最新論文 | HyperAI超神経