
초록
이 연구에서는 그래픽 신경망을 이용하여 이미지 내 인간-객체 상호작용을 탐지하는 문제를 다룬다. 기존의 방법들과 달리, 노드들이 이웃 노드들에게 동일한 스케일링만 적용한 동일한 메시지를 전송하는 방식이 아니라, 우리는 쌍별 노드 간 메시지를 그들의 공간적 관계에 따라 조건화하는 방식을 제안한다. 이를 통해 동일한 노드의 이웃들에게도 서로 다른 메시지가 전달된다. 이를 위해 다중 분기 구조 하에서 공간 조건화를 적용하는 다양한 방법을 탐색하였다. 광범위한 실험을 통해, 인접 구조 계산, 메시지 전달, 그리고 보강된 그래프 특징 추출에 있어 공간 조건화의 우수성을 입증하였다. 특히, 경계 상자(Bounding Box)의 정확도가 높아질수록 외관 특징보다 공간 정보가 상호작용의 모호성 해소에 더 중요한 역할을 함을 실증적으로 보였다. 제안한 방법은 HICO-DET에서 mAP 31.33%, V-COCO에서 54.2%를 달성하여, 미세 조정된 탐지 성능에서 기존 최고 수준의 방법들을 크게 능가하였다.