Command Palette
Search for a command to run...
音声視覚ヒントのより良い活用:双モーダルトランスフォーマーを用いた高密度ビデオキャプショニング
音声視覚ヒントのより良い活用:双モーダルトランスフォーマーを用いた高密度ビデオキャプショニング
Vladimir Iashin; Esa Rahtu
概要
密集ビデオキャプショニングは、トリミングされていないビデオ内の重要なイベントを局所化し、説明することを目指しています。既存の手法は主に視覚的な特徴のみを利用しており、音声トラックを完全に無視しています。両方のモダリティを利用する先行研究は僅かに存在しますが、特定のドメインを持つデータセットでの重要性を示すか、または貧弱な結果しか示していないのが現状です。本論文では、双モダリティ入力に対応したトランスフォーマーarchitecture(アーキテクチャ)を一般化したBi-modal Transformer(双モダリティトランスフォーマー)を導入します。提案モデルが音声と視覚的なモダリティを使用して密集ビデオキャプショニングタスクで有効であることを示し、さらにこのモジュールがシーケンス・ツー・シーケンスタスクにおいて任意の2つのモダリティを処理できる能力も確認しました。また、双モダリティトランスフォーマーの一環として事前学習された双モダリティエンコーダーが単純な提案生成モジュールの特徴抽出器として利用できることも示しています。性能評価は困難なActivityNet Captionsデータセットで行われ、当モデルは優れた性能を達成しました。コードは以下のURLから入手可能です: v-iashin.github.io/bmt