
초록
객체 간의 관계는 이미지 이해에서 중요한 역할을 합니다. 개별 객체 인식에서 딥 러닝 기술이 큰 성공을 거두었음에도 불구하고, 객체 간의 관계에 대한 추론은 여전히 어려운 과제입니다. 이전 방법들은 이러한 문제를 분류 문제로 다루는 경우가 많았으며, 각 종류의 관계(예: "타다" (ride))나 각각의 구체적인 시각적 문구(예: "사람-말 타다" (person-ride-horse))를 범주로 취급했습니다. 이러한 접근 방식은 각 종류의 관계에서 나타나는 높은 다양성이나 많은 수의 구체적인 시각적 문구로 인해 상당한 어려움에 직면해 있습니다. 우리는 이 문제를 해결하기 위한 통합 프레임워크를 제안합니다. 이 프레임워크의 핵심은 객체와 그들의 관계 사이의 통계적 의존성을 활용하도록 특별히 설계된 새로운 구조인 딥 관계 네트워크(Deep Relational Network)입니다. 제안된 방법은 두 개의 대규모 데이터셋에서 기존 최신 기술보다 실질적인 향상을 보여주었습니다.