8ヶ月前

Video Captioning

マルチモーダル

マルチモーダル表現

マルチモーダル

Minkuk Kim Hyeon Bae Kim Jinyoung Moon Jinwoo Choi Seong Tae Kim

概要

未編集ビデオ内のすべてのイベントを自動的に局所化し、キャプションを付けることを目指す密集ビデオキャプショニングに関する研究に大きな注目が寄せられています。いくつかの研究では、タスク間の関連性を考慮するために、密集ビデオキャプショニングをイベント局所化とイベントキャプショニングの複数タスク問題として設計する方法が提案されています。しかし、視覚入力のみを使用して両方のタスクに対処することは、意味的内容が不足しているため困難です。本研究では、この課題に対処するために、人間の認知情報処理に着想を得た新しいフレームワークを提案します。当モデルは外部メモリを利用し、事前知識を取り入れます。また、クロスモーダルなビデオ対テキストマッチングに基づくメモリ検索手法を提案しています。検索されたテキスト特徴を効果的に取り入れるため、多様なエンコーダーと視覚およびテキストクロスアテンションモジュールを持つデコーダーが設計されました。比較実験を行い、提案手法の有効性をActivityNet CaptionsおよびYouCook2データセットで示しました。実験結果は、大規模なビデオデータセットからの広範な事前学習なしでも当モデルが有望な性能を発揮することを示しています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

Video Captioning

マルチモーダル

マルチモーダル表現

マルチモーダル

Minkuk Kim Hyeon Bae Kim Jinyoung Moon Jinwoo Choi Seong Tae Kim

概要

未編集ビデオ内のすべてのイベントを自動的に局所化し、キャプションを付けることを目指す密集ビデオキャプショニングに関する研究に大きな注目が寄せられています。いくつかの研究では、タスク間の関連性を考慮するために、密集ビデオキャプショニングをイベント局所化とイベントキャプショニングの複数タスク問題として設計する方法が提案されています。しかし、視覚入力のみを使用して両方のタスクに対処することは、意味的内容が不足しているため困難です。本研究では、この課題に対処するために、人間の認知情報処理に着想を得た新しいフレームワークを提案します。当モデルは外部メモリを利用し、事前知識を取り入れます。また、クロスモーダルなビデオ対テキストマッチングに基づくメモリ検索手法を提案しています。検索されたテキスト特徴を効果的に取り入れるため、多様なエンコーダーと視覚およびテキストクロスアテンションモジュールを持つデコーダーが設計されました。比較実験を行い、提案手法の有効性をActivityNet CaptionsおよびYouCook2データセットで示しました。実験結果は、大規模なビデオデータセットからの広範な事前学習なしでも当モデルが有望な性能を発揮することを示しています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています