Person Centric Visual Grounding
Person-centric Visual Grounding是指在图像中将文本描述中提到的人物与图像中实际出现的人物进行关联的任务。该任务旨在通过视觉和文本信息的融合,实现对特定人物的精准定位和识别,从而提升多模态内容理解的准确性和效率。这项技术在人机交互、智能监控和多媒体信息检索等领域具有重要应用价值。
Person-centric Visual Grounding是指在图像中将文本描述中提到的人物与图像中实际出现的人物进行关联的任务。该任务旨在通过视觉和文本信息的融合,实现对特定人物的精准定位和识别,从而提升多模态内容理解的准确性和效率。这项技术在人机交互、智能监控和多媒体信息检索等领域具有重要应用价值。