HyperAIHyperAI

Command Palette

Search for a command to run...

エンドツーエンド型の生成的プリトレーニングによるマルチモーダル動画キャプション生成

Paul Hongsuck Seo Arsha Nagrani Anurag Arnab Cordelia Schmid

概要

最近の動画および言語事前学習フレームワークは、文の生成能力を欠いています。本研究では、ラベルのない動画から学習可能な新しい事前学習フレームワークである「マルチモーダル動画生成事前学習(Multimodal Video Generative Pretraining, MV-GPT)」を提案します。このフレームワークは、マルチモーダル動画キャプション生成をはじめとする生成タスクに効果的に活用可能です。近年の動画-言語事前学習フレームワークとは異なり、本手法はマルチモーダル動画エンコーダと文デコーダを統合的に学習します。ラベルのない動画にはキャプションが存在しないため、本研究では将来の発話(utterance)を追加のテキスト情報源として活用し、双方向生成目的関数(bidirectional generation objective)を提案します。この目的関数により、現在のマルチモーダルな文脈から将来の発話を生成するだけでなく、将来の観測から現在の発話を再構成することも可能になります。この目的関数に基づき、エンコーダ-デコーダモデルをエンド・トゥ・エンドで学習し、入力として原始的なピクセルデータおよび音声の転写テキストを直接受け取り、キャプションを生成するモデルを構築しました。実験の結果、MV-GPTは4つの標準ベンチマークにおいてマルチモーダル動画キャプションタスクで最先端の性能を達成するとともに、VideoQA、動画検索、行動分類といった他の動画理解タスクにおいても優れた結果を示しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています