ViPLO: 시각 변환기 기반의 자가 루프 그래프로 인한 자세 조건화된 인간-객체 상호작용 탐지

인간-객체 상호작용(HOI) 탐지는 인간과 객체 간의 관계를 정위치화하고 추론하는 데 중요한 역할을 하며, 장면 이해에 핵심적인 기능을 수행한다. 기존의 두 단계형 HOI 탐지기들은 학습 및 추론 효율성이 높다는 장점이 있으나, 오래된 백본 네트워크와 상호작용 분류기에서 인간의 HOI 인지 과정을 고려하지 못한 점으로 인해 단계형 방법에 비해 성능이 낮은 문제가 있다. 본 논문에서는 이러한 문제를 해결하기 위해, 비전 트랜스포머 기반의 퍼포즈 조건부 자기루프 그래프(ViPLO)를 제안한다. 먼저, 비전 트랜스포머 백본에 적합한 새로운 특징 추출 방법으로, 겹치는 영역을 활용한 마스킹(MOA) 모듈을 제안한다. MOA 모듈은 각 패치와 주어진 영역 간의 겹치는 영역을 주의(attention) 함수에 활용함으로써, 비전 트랜스포머 백본을 사용할 때 발생하는 양자화 문제를 해결한다. 또한, 인간의 자세에 따라 조건부로 설정된 자기루프 구조를 가진 그래프를 설계하여, 인간 노드의 표현을 인간 관절의 국소적 특징으로 업데이트한다. 이는 인간이 HOI를 인지하는 과정에 기반하여 특정 관절에 초점을 맞추어 상호작용 유형을 효과적으로 식별할 수 있도록 분류기에 도움을 준다. 그 결과, ViPLO는 두 개의 공개 벤치마크에서 최신 기술 수준(SOTA) 성능을 달성하였으며, 특히 HICO-DET 데이터셋에서 +2.07 mAP의 성능 향상을 기록하였다. 소스 코드는 https://github.com/Jeeseung-Park/ViPLO 에서 공개되어 있다.