7ヶ月前

概要

密集ビデオキャプショニングは、トリミングされていないビデオ内のすべてのイベントに対してテキスト記述を生成することを目指しています。これはイベントの検出と説明の両方を含むため、これまでの密集ビデオキャプショニングに関するすべての手法は、この問題を解決するために2つのモデル（すなわち、イベント提案モデルとキャプショニングモデル）を構築してきました。これらのモデルは別々にまたは交互に訓練されることが多いため、言語的な説明がイベント提案に直接影響を与えることを防いでしまい、正確な説明の生成にはこれが重要です。この問題に対処するため、私たちはエンドツーエンドのトランスフォーマーモデルを提案します。エンコーダーはビデオを適切な表現にエンコードします。提案デコーダーは異なるアンカーを使用してエンコーディングからビデオイベント提案を形成します。キャプショニングデコーダーはマスキングネットワークを用いて、エンコーディング特徴量の中で提案されたイベントに注意を制限します。このマスキングネットワークはイベント提案を微分可能なマスクに変換し、訓練中に提案とキャプショニングの間の一貫性を確保します。さらに、私たちのモデルでは自己注意メカニズムが採用されており、これによりエンコーディング時に効率的な非再帰構造を使用でき、性能向上につながります。私たちはActivityNet CaptionsおよびYouCookIIデータセットでこのエンドツーエンドモデルの有効性を示しており、それぞれ10.12および6.58のMETEORスコアを達成しました。

ソースPDF