7日前

正確かつ高速な圧縮動画キャプション生成

Yaojie Shen, Xin Gu, Kai Xu, Heng Fan, Longyin Wen, Libo Zhang
正確かつ高速な圧縮動画キャプション生成
要約

従来の動画キャプション生成手法は、通常、デコードされた動画からフレームを手動で抽出し、その後に特徴量抽出やキャプション生成モデルの学習といった後続プロセスを実行する必要がある。このパイプラインにおいて、手動によるフレーム抽出は動画内の重要な情報を逸脱する可能性があり、性能の低下を引き起こす。さらに、抽出されたフレームに含まれる重複情報は、動画キャプションの推論効率を低下させる要因となる。このような課題に対処するため、本研究では従来の手法とは異なる視点から、圧縮領域(compressed domain)における動画キャプション生成に着目する。このアプローチは従来のパイプラインに比べて複数の利点を有する:1)デコード済み動画から得られる生画像と比較して、Iフレーム、運動ベクトル、残差から構成される圧縮動画は、より特徴的な表現を備えており、専用のモデル設計により、手動でのフレーム抽出を不要としつつ、動画全体を活用した学習が可能となる;2)処理対象となる情報量が小さく、冗長性も少ないため、キャプションモデルの推論がより効率的となる。本研究では、圧縮領域で動作するシンプルかつ効果的なエンドツーエンド型Transformerモデルを提案し、圧縮された動画から直接キャプション生成の学習を可能にする。実験の結果、単純な構成にもかかわらず、複数のベンチマークで最先端の性能を達成するとともに、従来手法と比較してほぼ2倍の高速性を実現した。コードは以下のURLで公開されている:https://github.com/acherstyx/CoCap。