HyperAI超神经

Video Narration Captioning

视频叙述字幕生成(Video Narration Captioning)是计算机视觉领域的子任务,旨在预测多镜头视频中每个镜头的叙述字幕。该任务通过引入自动语音识别(ASR)文本作为额外输入,利用与单镜头视频字幕生成相同的模型结构,但预测目标为叙述字幕。视频叙述字幕生成不仅提供背景知识,还反映评论者的观点,对理解视频内容具有重要价值。