HyperAIHyperAI

Command Palette

Search for a command to run...

テキストから動画への検索における意味役割認識相関Transformer

Burak Satar Hongyuan Zhu Xavier Bresson Joo Hwee Lim

概要

ソーシャルメディアの登場により、毎日膨大な動画クリップがアップロードされており、言語クエリに基づいて最も関連性の高い視覚的コンテンツを検索することは極めて重要となっている。従来の大多数の手法は、単純なテキストと視覚コンテンツの間に共通の埋め込み空間を学習することに注力しているが、それぞれのモダリティ内における構造的特徴や、モダリティ間の相関関係を十分に活用していない。本研究では、テキストと動画を物体、空間的文脈、時間的文脈という意味論的役割に明示的に分離し、アテンション機構を用いてこれらの三つの役割間におけるモダリティ内およびモダリティ間の相関関係を学習することで、異なるレベルでのマッチングに有用な特徴を発見する新しいTransformerモデルを提案する。代表的なYouCook2データセットを用いた初期評価において、本手法は現在の最先端手法をすべての指標で大きく上回り、また2つの指標においては2つのSOTA(最先端)手法をも上回ることが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
テキストから動画への検索における意味役割認識相関Transformer | 記事 | HyperAI超神経