13日前

テキストから動画への検索における意味役割認識相関Transformer

Burak Satar, Hongyuan Zhu, Xavier Bresson, Joo Hwee Lim

要約

ソーシャルメディアの登場により、毎日膨大な動画クリップがアップロードされており、言語クエリに基づいて最も関連性の高い視覚的コンテンツを検索することは極めて重要となっている。従来の大多数の手法は、単純なテキストと視覚コンテンツの間に共通の埋め込み空間を学習することに注力しているが、それぞれのモダリティ内における構造的特徴や、モダリティ間の相関関係を十分に活用していない。本研究では、テキストと動画を物体、空間的文脈、時間的文脈という意味論的役割に明示的に分離し、アテンション機構を用いてこれらの三つの役割間におけるモダリティ内およびモダリティ間の相関関係を学習することで、異なるレベルでのマッチングに有用な特徴を発見する新しいTransformerモデルを提案する。代表的なYouCook2データセットを用いた初期評価において、本手法は現在の最先端手法をすべての指標で大きく上回り、また2つの指標においては2つのSOTA（最先端）手法をも上回ることが示された。