视频到图像功能可供性定位 | SOTA | HyperAI超神经

Video-to-image Affordance Grounding是计算机视觉领域的一项子任务，旨在通过分析演示视频中的手部交互区域，在目标图像上生成相应的操作热图，并标注具体的操作动作（如按压、旋转等）。该任务能够精准定位物体的可操作部位及其功能，对于机器人操作、人机交互及增强现实技术具有重要应用价值。