Video To Image Affordance Grounding
"비디오-이미지 아포던스 그라운딩"은 컴퓨터 비전 분야의 하위 작업으로, 시연 비디오에서 손의 상호작용 영역을 분석하여 대상 이미지에 해당하는 조작 히트맵을 생성하고 특정 조작 동작(예: 누르기, 돌리기 등)을 주석화하는 것을 목표로 합니다. 이 작업은 로봇 조작, 인간-컴퓨터 상호작용, 확장 현실 기술 등에 있어 객체의 조작 가능한 부분과 그 기능을 정확히 위치시키는 데 큰 응용 가치가 있습니다.