HyperAIHyperAI

Command Palette

Search for a command to run...

テキストによるビデオ検索のための二重エンコーディング

Jianfeng Dong Xirong Li, Member, IEEE Chaoxi Xu Xun Yang Gang Yang Xun Wang, Member, IEEE Meng Wang, Fellow, IEEE

概要

本論文は、テキストによるビデオ検索という難問に取り組んでいます。この検索パラダイムでは、エンドユーザーがアドホックなクエリを自然言語の文章のみで記述し、視覚的な例を提供せずに未ラベルのビデオを検索します。ビデオをフレームのシーケンスとして、クエリを単語のシーケンスとして扱う場合、効果的なシーケンス対シーケンスのクロスモーダルマッチングが重要となります。そのためには、まず両モーダルを実数ベクトルにエンコードし、共通空間に射影する必要があります。本論文では、この目標を達成するために、ビデオとクエリをそれぞれ強力な密な表現にエンコードする二重深層エンコーディングネットワークを提案しています。本研究の新規性は二つあります。第一に、特定の単一レベルエンコーダーに依存する従来の手法とは異なり、提案されたネットワークは粗いレベルから細かいレベルまで両モーダルの豊富な内容を多段階で表現するマルチレベルエンコーディングを行います。第二に、概念ベースまたは潜在空間ベースのいずれかである従来の共通空間学習アルゴリズムとは異なり、潜在空間の高性能と概念空間の良好な解釈可能性を組み合わせたハイブリッド空間学習を導入しています。二重エンコーディングは概念的に単純であり、実際には効果的であり、ハイブリッド空間学習によって端から端まで訓練されます。4つの課題のあるビデオデータセットにおける広範な実験により、新しい手法の有効性が示されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています