6ヶ月前

概要

ソーシャルメディアの普及に伴い、毎日大量の動画がアップロードされている。このような状況下で、ユーザーのテキストクエリに最も関連する動画コンテンツを効果的に検索する仕組みは、ますます重要性を増している。従来の多数の手法は、グローバルな視覚的特徴とテキスト特徴の間に一つの統合埋め込み空間のみを考慮しており、各モダリティの局所構造には着目していない。また、一部のアプローチではグローバル特徴と局所特徴を別々に扱う複数の埋め込み空間を導入しているが、モダリティ間の豊かな相関関係を無視している。本研究では、テキストと動画を空間的文脈、時系列的文脈、オブジェクト的文脈の三つのレベルに分離する新しい混合専門家型トランスフォーマーRoME（Mixture-of-Experts Transformer for Retrieval）を提案する。本手法は、トランスフォーマーに基づくアテンション機構を用いて、グローバルおよび局所レベルにおける視覚的・テキスト的埋め込みを効果的に活用するとともに、混合専門家（Mixture-of-Experts）機構を導入することで、モダリティ間および構造間の相関関係を十分に考慮する。実験結果から、事前学習を行わない同一の視覚バックボーンを用いた場合でも、YouCook2およびMSR-VTTデータセットにおいて、最先端の手法を上回る性能を達成した。さらに、設計選択の妥当性を検証するため、広範なアブレーションスタディを実施した。

ソースPDF