8ヶ月前

ビデオ理解

Video Captioning

視覚質問応答

マルチモーダル

コンピュータビジョン

Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1

概要

動画の短いクリップには、複数のイベントの進行と興味深いストーリーラインが含まれていることがあります。人間は各ショットで起こるイベントを捉え、それらを関連付けてその背後にある物語を理解する必要があります。本研究では、詳細なショットレベルのキャプション、包括的な動画要約、および質問応答ペアを備えた新しいマルチショット動画理解ベンチマーク「Shot2Story」を提示します。動画の意味的内容をよりよく理解するために、視覚信号と人間のナレーションの両方に対してキャプションを提供しています。私たちは単一ショット動画キャプション作成、マルチショット動画要約作成、マルチショット動画質問応答など、いくつかの異なるタスクを設計しました。初期実験では、マルチショット動画に対する長い包括的な要約を作成することがいくつかの課題であることが示されています。しかし、生成された不完全な要約でも既存の動画理解タスク（例：動画質問応答）において競争力のある性能を達成できています。これにより、「詳細な要約を使用した動画理解」という未十分に探索されていない設定が促進されます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ビデオ理解

Video Captioning

視覚質問応答

マルチモーダル

コンピュータビジョン

Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1

概要

動画の短いクリップには、複数のイベントの進行と興味深いストーリーラインが含まれていることがあります。人間は各ショットで起こるイベントを捉え、それらを関連付けてその背後にある物語を理解する必要があります。本研究では、詳細なショットレベルのキャプション、包括的な動画要約、および質問応答ペアを備えた新しいマルチショット動画理解ベンチマーク「Shot2Story」を提示します。動画の意味的内容をよりよく理解するために、視覚信号と人間のナレーションの両方に対してキャプションを提供しています。私たちは単一ショット動画キャプション作成、マルチショット動画要約作成、マルチショット動画質問応答など、いくつかの異なるタスクを設計しました。初期実験では、マルチショット動画に対する長い包括的な要約を作成することがいくつかの課題であることが示されています。しかし、生成された不完全な要約でも既存の動画理解タスク（例：動画質問応答）において競争力のある性能を達成できています。これにより、「詳細な要約を使用した動画理解」という未十分に探索されていない設定が促進されます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Shot2Story: 多ショット動画の包括的理解のための新しいベンチマーク | 記事 | HyperAI超神経