2달 전

시연 영상에서 시각적 가능도 지면 학습

Hongchen Luo; Wei Zhai; Jing Zhang; Yang Cao; Dacheng Tao
시연 영상에서 시각적 가능도 지면 학습
초록

시각적 가능성 지정(visual affordance grounding)은 이미지나 비디오에서 사람과 물체 간의 모든 가능한 상호작용 영역을 분할하는 것을 목표로 하며, 이는 로봇 그립(robot grasping) 및 행동 인식(action recognition) 등 많은 응용 분야에 유익합니다. 그러나 기존 방법들은 주로 물체의 외관 특성을 이용하여 이미지의 각 영역을 분할하므로 다음 두 가지 문제에 직면해 있습니다: (i) 물체 내에서 사람들이 상호작용하는 여러 가능한 영역이 존재하며; (ii) 동일한 물체 영역에서 여러 가능한 인간 상호작용이 발생할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 시연 비디오에서 손의 위치와 행동이 제공하는 보조 힌트를 활용하여 여러 가능성들을 제거하고 물체 내의 상호작용 영역을 더 잘 위치시키는 손 보조 가능성 지정 네트워크(Hand-aided Affordance Grounding Network, HAGNet)를 제안합니다. 구체적으로, HAGNet은 시연 비디오와 물체 이미지를 처리하기 위한 이중 분기 구조를 가지고 있습니다. 비디오 분기에서는 각 비디오 프레임에서 손 주변의 영역을 강화하기 위해 손 보조 주의(hand-aided attention)를 도입하고, 이후 LSTM 네트워크를 사용하여 행동 특성을 집계합니다. 물체 분기에서는 행동 클래스에 따라 물체의 다른 부분에 초점을 맞추도록 하는 의미론적 강화 모듈(semantic enhancement module, SEM)을 도입하고, 이를 통해 물체 분기의 출력 특성이 비디오 분기와 일치하도록 정렬하며, 비디오 분기에 있는 지식을 물체 분기로 전달합니다. 두 개의 어려운 데이터셋에 대한 정량적 및 정성적 평가 결과, 우리의 방법은 가능성 지정(affordance grounding)에서 최신 연구 성과(state-of-the-art results)를 달성했습니다. 소스 코드는 공개될 예정입니다.

시연 영상에서 시각적 가능도 지면 학습 | 최신 연구 논문 | HyperAI초신경