Video Visual Relation Detection
Video Visual Relation Detection (VidVRD) 是计算机视觉领域的子任务,旨在检测视频中感兴趣的视觉关系实例。每个实例由关系三元组 <主体, 谓词, 客体> 及其轨迹表示。与静态图像相比,视频提供了动态和时间变化的特征,有助于捕捉更自然的视觉关系。然而,由于对象跟踪的准确性要求高和关系表现形式的多样性,VidVRD 在技术上比图像视觉关系检测更具挑战性。该任务的应用价值在于能够深入理解视频内容,支持高级的场景分析和行为识别。