Glance and Gaze: One-Stage 인간-객체 상호작용 탐지를 위한 동작 인지 포인트 추론

현대적인 인간-객체 상호작용(HOI) 탐지 방법은 단계별(one-stage) 접근법과 이단계(two-stage) 접근법으로 나뉜다. 단계별 모델은 간결한 아키텍처 덕분에 더 효율적이지만, 이단계 모델은 정확도 측면에서 여전히 우위를 점하고 있다. 기존의 단계별 모델들은 일반적으로 사전 정의된 상호작용 영역이나 점을 탐지한 후, 이러한 영역에만 주의를 기울여 상호작용을 예측하는 방식을 취한다. 따라서 이러한 모델들은 탐지 대상이 되는 구분 가능한 특징을 동적으로 탐색하는 추론 단계를 결여하고 있다. 본 논문에서는 '눈길과 시선 네트워크(Glance and Gaze Network, GGNet)'라는 새로운 단계별 방법을 제안한다. 이 방법은 눈길(glance)과 시선(gaze) 단계를 통해 동적으로 행동 인식 가능한 점들(ActPoints)의 집합을 모델링한다. 눈길 단계는 특성 맵의 각 픽셀이 상호작용 점인지 빠르게 판단한다. 시선 단계는 눈길 단계에서 생성된 특성 맵을 활용하여, 각 픽셀 주변의 ActPoints를 점진적으로 적응적으로 추론한다. 개선된 ActPoints의 특징을 집계하여 상호작용 예측을 수행한다. 또한, 탐지된 각 상호작용을 해당 인간-객체 쌍과 효과적으로 매칭하는 행동 인식 기반의 접근법을 설계하였으며, GGNet의 최적화를 향상시키기 위해 새로운 하드 네거티브 주의 손실(attention-based hard negative loss)을 제안하였다. 위의 모든 연산은 특성 맵 내 모든 픽셀에 대해 동시에且 효율적으로 수행된다. 최종적으로 GGNet은 V-COCO 및 HICODET 기준에서 기존 최고 수준의 방법들을 상당한 차이로 초월하였다. GGNet의 소스 코드는 다음 링크에서 확인할 수 있다: https://github.com/SherlockHolmes221/GGNet.