2ヶ月前

覚えていますか?クロスモーダルメモリ検索を用いた高密度ビデオキャプショニング

Kim, Minkuk ; Kim, Hyeon Bae ; Moon, Jinyoung ; Choi, Jinwoo ; Kim, Seong Tae
覚えていますか?クロスモーダルメモリ検索を用いた高密度ビデオキャプショニング
要約

未編集ビデオ内のすべてのイベントを自動的に局所化し、キャプションを付けることを目指す密集ビデオキャプショニングに関する研究に大きな注目が寄せられています。いくつかの研究では、タスク間の関連性を考慮するために、密集ビデオキャプショニングをイベント局所化とイベントキャプショニングの複数タスク問題として設計する方法が提案されています。しかし、視覚入力のみを使用して両方のタスクに対処することは、意味的内容が不足しているため困難です。本研究では、この課題に対処するために、人間の認知情報処理に着想を得た新しいフレームワークを提案します。当モデルは外部メモリを利用し、事前知識を取り入れます。また、クロスモーダルなビデオ対テキストマッチングに基づくメモリ検索手法を提案しています。検索されたテキスト特徴を効果的に取り入れるため、多様なエンコーダーと視覚およびテキストクロスアテンションモジュールを持つデコーダーが設計されました。比較実験を行い、提案手法の有効性をActivityNet CaptionsおよびYouCook2データセットで示しました。実験結果は、大規模なビデオデータセットからの広範な事前学習なしでも当モデルが有望な性能を発揮することを示しています。

覚えていますか?クロスモーダルメモリ検索を用いた高密度ビデオキャプショニング | 最新論文 | HyperAI超神経