HyperAIHyperAI

Command Palette

Search for a command to run...

エンドツーエンドの高密度ビデオキャプショニングにマスク付きトランスフォーマーを用いた手法

Luowei Zhou* Yingbo Zhou* Jason J. Corso Richard Socher Caiming Xiong†

概要

密集ビデオキャプショニングは、トリミングされていないビデオ内のすべてのイベントに対してテキスト記述を生成することを目指しています。これはイベントの検出と説明の両方を含むため、これまでの密集ビデオキャプショニングに関するすべての手法は、この問題を解決するために2つのモデル(すなわち、イベント提案モデルとキャプショニングモデル)を構築してきました。これらのモデルは別々にまたは交互に訓練されることが多いため、言語的な説明がイベント提案に直接影響を与えることを防いでしまい、正確な説明の生成にはこれが重要です。この問題に対処するため、私たちはエンドツーエンドのトランスフォーマーモデルを提案します。エンコーダーはビデオを適切な表現にエンコードします。提案デコーダーは異なるアンカーを使用してエンコーディングからビデオイベント提案を形成します。キャプショニングデコーダーはマスキングネットワークを用いて、エンコーディング特徴量の中で提案されたイベントに注意を制限します。このマスキングネットワークはイベント提案を微分可能なマスクに変換し、訓練中に提案とキャプショニングの間の一貫性を確保します。さらに、私たちのモデルでは自己注意メカニズムが採用されており、これによりエンコーディング時に効率的な非再帰構造を使用でき、性能向上につながります。私たちはActivityNet CaptionsおよびYouCookIIデータセットでこのエンドツーエンドモデルの有効性を示しており、それぞれ10.12および6.58のMETEORスコアを達成しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています