6ヶ月前

Video Captioning

ビデオ処理

マルチモーダル

コンピュータビジョン

Wanrong Zhu Bo Pang Ashish V. Thapliyal William Yang Wang Radu Soricut

概要

密度型動画キャプション生成は、入力動画における関心事項となるイベントを特定し、各イベントに対して記述的なキャプションを生成することを目的としている。従来のアプローチは、通常、二段階の生成プロセスに従う。すなわち、まず各イベントに対応する動画セグメントを提案し、その後、識別された各セグメントに対してキャプションを生成する。近年、大規模なシーケンス生成事前学習の進展により、多様なタスクに対して統一的なタスク定式化が可能となり、大きな成功を収めている。しかし、密度型動画キャプションのようなより複雑なタスクについては、まだその強力な枠組みを十分に活用できていない。本研究では、密度型動画キャプションの二つのサブタスクを、一つのシーケンス生成タスクとして統合的にモデル化する手法を提示し、イベントとその対応する記述を同時に予測することを実現する。YouCook2およびViTTにおける実験結果は、有望な性能を示しており、エンド・トゥ・エンドの密度型動画キャプションという複雑なタスクを、大規模事前学習モデルに統合して学習することが可能であることを示唆している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

Video Captioning

ビデオ処理

マルチモーダル

コンピュータビジョン

Wanrong Zhu Bo Pang Ashish V. Thapliyal William Yang Wang Radu Soricut

概要

密度型動画キャプション生成は、入力動画における関心事項となるイベントを特定し、各イベントに対して記述的なキャプションを生成することを目的としている。従来のアプローチは、通常、二段階の生成プロセスに従う。すなわち、まず各イベントに対応する動画セグメントを提案し、その後、識別された各セグメントに対してキャプションを生成する。近年、大規模なシーケンス生成事前学習の進展により、多様なタスクに対して統一的なタスク定式化が可能となり、大きな成功を収めている。しかし、密度型動画キャプションのようなより複雑なタスクについては、まだその強力な枠組みを十分に活用できていない。本研究では、密度型動画キャプションの二つのサブタスクを、一つのシーケンス生成タスクとして統合的にモデル化する手法を提示し、イベントとその対応する記述を同時に予測することを実現する。YouCook2およびViTTにおける実験結果は、有望な性能を示しており、エンド・トゥ・エンドの密度型動画キャプションという複雑なタスクを、大規模事前学習モデルに統合して学習することが可能であることを示唆している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています