7日前

多様な動画キャプション生成における適応的空間時間注意力

Zohreh Ghaderi, Leonard Salewski, Hendrik P. A. Lensch
多様な動画キャプション生成における適応的空間時間注意力
要約

動画の適切なキャプションを生成するためには、推論プロセスが関連する概念を特定し、それらの空間的関係および動画クリップ内の時間的展開に注目する必要があります。本研究では、エンドツーエンドのエンコーダデコーダ型動画キャプション生成フレームワークとして、単一の統合的時空間動画解析に適応したTransformerアーキテクチャと、自己注意機構に基づく高精度なテキスト生成を実現するデコーダを組み合わせた構成を提案します。さらに、両方のTransformerを訓練する際、必要な入力フレーム数を削減しつつも、関連するコンテンツを維持するための適応型フレーム選択スキームを導入しています。また、各サンプルのすべての正解キャプションを統合することで、動画キャプション生成に有用な意味的コンセプトを推定しています。本手法は、MSVDおよび大規模なMSR-VTT、VATEXベンチマークデータセットにおいて、複数の自然言語生成(NLG)評価指標を考慮して、最先端の性能を達成しています。さらに、多様性スコアを用いた追加評価により、生成されたキャプションの構造的表現力および多様性の高さが示されています。