
초록
시각적 관계는 이미지 내 객체 쌍 간의 다양한 상호작용(예: "남자가 자전거를 타다"와 "남자가 자전거를 밀다")을 포착합니다. 따라서 가능한 관계의 집합은 매우 크며, 모든 가능한 관계에 대해 충분한 학습 예제를 얻는 것이 어렵습니다. 이러한 제약 조건 때문에, 이전의 시각적 관계 검출 연구에서는 몇 가지 관계만 예측하는 데 집중해 왔습니다. 대부분의 관계가 드물게 발생하지만, 그 객체("남자"와 "자전거")와 술어("타다"와 "밀다")는 독립적으로 더 자주 나타납니다. 우리는 이러한 통찰력을 활용하여 객체와 술어를 개별적으로 학습하고 나중에 이를 결합하여 한 이미지당 여러 관계를 예측할 수 있는 모델을 제안합니다. 또한, 의미론적 단어 임베딩에서 언어 사전 확률을 활용하여 예측된 관계의 가능성 점수를 미세 조정함으로써 기존 연구보다 개선되었습니다. 우리의 모델은 소수의 예제로부터 수천 종류의 관계를 예측할 수 있도록 확장할 수 있습니다. 또한, 예측된 관계의 객체들을 이미지 내 경계 상자로 정위합니다. 우리는 관계 이해가 콘텐츠 기반 이미지 검색을 개선할 수 있음을 추가로 입증하였습니다.