HyperAI

ビデオナレーションキャプショニングは、コンピュータビジョンのサブタスクで、マルチショットビデオの各ショットに対してナレーションキャプションを予測することを目指しています。このタスクでは、自動音声認識（ASR）テキストを追加の入力として使用し、シングルショットビデオキャプショニングと同じモデルアーキテクチャを利用しますが、予測の対象はナレーションキャプションです。ビデオナレーションキャプションは、背景知識を提供するだけでなく、解説者の視点も反映しており、ビデオコンテンツの理解に大きな価値をもたらします。

Shot2Story20K

Ours

HyperAI

Shot2Story20K

Ours

Command Palette

ビデオナレーションキャプショニング

Command Palette

ビデオナレーションキャプショニング

Command Palette

ビデオナレーションキャプショニング