ビデオナレーションキャプショニング

ビデオナレーションキャプショニングは、コンピュータビジョンのサブタスクで、マルチショットビデオの各ショットに対してナレーションキャプションを予測することを目指しています。このタスクでは、自動音声認識(ASR)テキストを追加の入力として使用し、シングルショットビデオキャプショニングと同じモデルアーキテクチャを利用しますが、予測の対象はナレーションキャプションです。ビデオナレーションキャプションは、背景知識を提供するだけでなく、解説者の視点も反映しており、ビデオコンテンツの理解に大きな価値をもたらします。

ビデオナレーションキャプショニング | SOTA | HyperAI超神経