RLIP: 인간-객체 상호작용 탐지를 위한 관계형 언어-이미지 사전학습

인간-객체 상호작용(HOI) 탐지의 과제는 인간이 환경과 상호작용하는 것을 세밀한 시각적 해석하는 데 초점을 맞추며, 다양한 응용 분야를 가능하게 한다. 기존 연구들은 효과적인 아키텍처 설계와 관련된 신호의 통합이 더 정확한 HOI 탐지에 기여함을 입증해왔다. 그러나 이 과제를 위한 적절한 사전 훈련 전략 설계는 기존 접근법에서 여전히 탐색이 부족한 영역이다. 이러한 격차를 보완하기 위해, 우리는 엔티티와 관계에 대한 설명을 모두 활용하는 대조적 사전 훈련 전략인 관계 기반 언어-이미지 사전 훈련(Relational Language-Image Pre-training, RLIP)을 제안한다. 이러한 사전 훈련을 효과적으로 활용하기 위해 세 가지 기술적 기여를 한다: (1) 엔티티와 관계 설명을 종합적으로 최적화된 사전 훈련 과정에서 동시에 활용할 수 있도록 하는 새로운 병렬 엔티티 탐지 및 순차적 관계 추론(Parallel entity detection and Sequential relation inference, ParSe) 아키텍처; (2) 미니배치 내에서 사용 가능한 언어 데이터 규모를 확장하는 합성 데이터 생성 프레임워크인 레이블 시퀀스 확장(Label Sequence Extension); (3) 사전 훈련 데이터 내에서 모호하거나 노이즈가 있는 샘플의 영향을 완화하기 위한 모호성 대응 메커니즘인 관계 품질 레이블(Relation Quality Labels)과 관계 의사 레이블(Relation Pseudo-Labels). 광범위한 실험을 통해 이러한 기여들이 함께 묶인 RLIP-ParSe가 제로샷, 희소 샘플, 그리고 미세 조정 기반의 HOI 탐지 성능을 향상시키며, 노이즈 있는 레이블로부터 학습하는 데 있어 더 높은 견고성을 제공함을 입증한다. 코드는 https://github.com/JacobYuan7/RLIP 에서 공개될 예정이다.