16일 전

딥 구조적 랭킹을 통한 시각적 관계 탐지

{Xilin Chen, Hong Chang, Yuhong Guo, Kongming Liang}
초록

시각적 관계 탐지(VRD, Visual Relationship Detection)는 객체 쌍 간의 상호작용을 설명하는 것을 목표로 한다. 개별 객체 탐지 작업과 달리, 가능한 관계의 수가 훨씬 많아 시각적 외관만으로는 관계를 탐색하기 어렵다. 또한 인간의 노력이 제한적이기 때문에 시각적 관계에 대한 레이블링이 일반적으로 불완전한 편이며, 이는 모델 학습과 평가의 어려움을 가중시킨다. 본 논문에서는 시각적 관계 탐지를 위한 새로운 프레임워크인 ‘딥 구조적 순위화(Deep Structural Ranking)’를 제안한다. 시각적 외관의 표현 능력을 보완하기 위해 입력 이미지 내 포함된 관계를 예측하기 위해 다수의 다양한 신호를 통합한다. 더불어, 레이블링된 관계가 더 높은 관련성 점수를 갖도록 강제하는 새로운 순위화 목적 함수를 설계하였다. 기존의 방법들과 달리, 본 연구에서 제안하는 방법은 관계의 동시 발생을 촉진하고, 레이블링의 불완전성 문제를 완화하는 데 동시에 기여한다. 실험 결과, 제안한 방법은 두 가지 널리 사용되는 데이터셋에서 최신 기술(SOTA)을 초월함을 보였다. 또한, 제안 방법이 제로샷 관계 탐지(zero-shot relationship detection)에서 우수한 성능을 보임을 입증하였다.

딥 구조적 랭킹을 통한 시각적 관계 탐지 | 최신 연구 논문 | HyperAI초신경