2달 전

비디오에서 추출한 인간-물체 상호작용 핫스팟

Tushar Nagarajan; Christoph Feichtenhofer; Kristen Grauman
비디오에서 추출한 인간-물체 상호작용 핫스팟
초록

물체와 상호작용하는 방법을 배우는 것은 체화된 시각적 지능으로 나아가는 중요한 단계이지만, 기존 기술들은 과도한 감독이나 센싱 요구사항에 의존하고 있습니다. 본 연구에서는 비디오에서 직접 인간-물체 상호작용 '핫스팟(hotspots)'을 학습하는 접근법을 제안합니다. 우리 접근법은 물체의 사용 가능성을 수동적으로 감독된 의미 분할 작업으로 취급하지 않고, 실제 인간 행동의 비디오를 관찰하여 가능한 행동을 예측함으로써 상호작용에 대해 학습합니다. 새로운 이미지나 비디오가 주어지면, 우리의 모델은 물체가 잠재적인 상호작용에서 어떻게 조작될지를 나타내는 공간적 핫스팟 맵을 추론합니다--물체가 현재 정지 상태인 경우라도 마찬가지입니다. 1인칭과 3인칭 비디오 모두를 통한 결과를 통해, 실제 인간-물체 상호작용에 기반한 사용 가능성(affordances)의 가치를 보여줍니다. 우리의 약간 감독된 핫스팟은 강하게 감독된 사용 가능성 방법들과 경쟁력을 갖추고 있을 뿐만 아니라, 새로운 물체 카테고리에 대한 상호작용도 예측할 수 있습니다.

비디오에서 추출한 인간-물체 상호작용 핫스팟 | 최신 연구 논문 | HyperAI초신경