HyperAIHyperAI

Command Palette

Search for a command to run...

RoME:テキストから動画検索へのロール認識型Mixture-of-Expert Transformer

Burak Satar Hongyuan Zhu Hanwang Zhang Joo Hwee Lim

概要

ソーシャルメディアの普及に伴い、毎日大量の動画がアップロードされている。このような状況下で、ユーザーのテキストクエリに最も関連する動画コンテンツを効果的に検索する仕組みは、ますます重要性を増している。従来の多数の手法は、グローバルな視覚的特徴とテキスト特徴の間に一つの統合埋め込み空間のみを考慮しており、各モダリティの局所構造には着目していない。また、一部のアプローチではグローバル特徴と局所特徴を別々に扱う複数の埋め込み空間を導入しているが、モダリティ間の豊かな相関関係を無視している。本研究では、テキストと動画を空間的文脈、時系列的文脈、オブジェクト的文脈の三つのレベルに分離する新しい混合専門家型トランスフォーマーRoME(Mixture-of-Experts Transformer for Retrieval)を提案する。本手法は、トランスフォーマーに基づくアテンション機構を用いて、グローバルおよび局所レベルにおける視覚的・テキスト的埋め込みを効果的に活用するとともに、混合専門家(Mixture-of-Experts)機構を導入することで、モダリティ間および構造間の相関関係を十分に考慮する。実験結果から、事前学習を行わない同一の視覚バックボーンを用いた場合でも、YouCook2およびMSR-VTTデータセットにおいて、最先端の手法を上回る性能を達成した。さらに、設計選択の妥当性を検証するため、広範なアブレーションスタディを実施した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
RoME:テキストから動画検索へのロール認識型Mixture-of-Expert Transformer | 記事 | HyperAI超神経