시각적 관계 검출을 위한 시각적 번역 임베딩 네트워크

시각적 관계, 예를 들어 "사람이 자전거를 타다"와 "자전거가 차량 옆에 있다"와 같은 것들은 이미지의 포괄적인 장면 이해를 제공하며, 이미 컴퓨터 비전과 자연어 처리 사이에서 그 큰 유용성을 입증하였습니다. 그러나 주체-술어-목적어 관계 삼중항을 모델링하는 데 따른 복잡한 조합 문제로 인해 시각적 관계의 위치 파악 및 예측에 대한 연구는 아직 미진한 상태입니다. 지식 기반의 관계 표현 학습과 컨벌루션 객체 검출 네트워크의 최근 발전에 영감을 받아, 우리는 시각적 관계 검출을 위한 Visual Translation Embedding 네트워크(VTransE)를 제안합니다. VTransE는 객체들을 단순한 벡터 변환으로 관계를 모델링할 수 있는 저차원 관계 공간에 배치합니다. 즉, 주체 + 술어 ≈ 목적어입니다. 우리는 이 네트워크에서 객체-관계 지식 전송을 완전히 컨벌루션 방식으로 지원하는 새로운 특징 추출 계층을 제안합니다. 이 계층은 단일 순방향/역방향 전달 과정에서 훈련과 추론을 지원합니다. 우리所知, VTransE는 최초의 엔드투엔드(end-to-end) 관계 검출 네트워크입니다. 우리는 두 개의 대규모 데이터셋인 Visual Relationship와 Visual Genome에서 VTransE의 효과성을 다른 최신 방법들과 비교하여 보여줍니다. VTransE가 순수하게 시각적인 모델임에도 불구하고, 언어 사전 정보를 사용하는 류(Lu)의 다중 모달(multi-modal) 모델과 경쟁력이 있다는 점에 주목해야 합니다.注:在最后一句中,“所知”一词是中文,可能是原文中的错误。根据上下文,我将其替换为“우리가 아는 한”以符合韩语表达习惯。