9日前

騰訊テキスト・ビデオ検索:マルチレベル表現を用いた階層的クロスモーダル相互作用

Jie Jiang, Shaobo Min, Weijie Kong, Dihong Gong, Hongfa Wang, Zhifeng Li, Wei Liu
騰訊テキスト・ビデオ検索:マルチレベル表現を用いた階層的クロスモーダル相互作用
要約

テキスト-ビデオ検索はマルチモーダル理解において重要な役割を果たしており、近年ますます注目を集めている。既存の大多数の手法は、全体のビデオと完全なキャプション文との間で対比ペアを構築することに注力しているが、細粒度なクロスモーダル関係、例えばクリップ-フレーズやフレーム-ワードの関係を無視している。本論文では、ビデオ-文、クリップ-フレーズ、フレーム-ワードの多レベルクロスモーダル関係を探索するための新規手法、階層的クロスモーダル相互作用(Hierarchical Cross-Modal Interaction, HCMI)を提案する。内在的な意味的フレーム関係を考慮し、HCMIは自己注意機構(self-attention)を用いてフレームレベルの相関関係を探索し、関連するフレームを適応的にクラスタリングしてクリップレベルおよびビデオレベルの表現に統合する。このアプローチにより、フレーム-クリップ-ビデオという複数の粒度に対して多段階のビデオ表現を構築し、細粒度なビデオコンテンツを捉えるとともに、ワード-フレーズ-文という複数の粒度でテキストモダリティに対しても多段階の表現を生成する。ビデオおよびテキストモダリティに対して多段階の表現を構築した上で、階層的対比学習(hierarchical contrastive learning)を設計し、フレーム-ワード、クリップ-フレーズ、ビデオ-文という細粒度なクロスモーダル関係を探索することで、ビデオとテキストモダリティ間の包括的な意味的比較を実現する。さらに、適応的ラベルノイズ除去とマージナルサンプル強化を組み合わせることで、HCMIはMSR-VTT、MSVD、LSMDC、DiDemo、ActivityNetの各ベンチマークにおいて、それぞれRank@1で55.0%、58.2%、29.7%、52.1%、57.3%という新たな最先端(SOTA)の性能を達成した。