
본 논문은 비디오 내에서 나타나는 객체 튜블릿 간의 관계를 <주어-동사-목적어> 삼중항으로 분류하고 감지하는 것을 목표로 합니다. 기존 연구에서는 객체 제안이나 튜블릿을 단일 엔티티로 취급하고 그들의 관계를 사후적으로 모델링하지만, 우리는 객체 튜블릿 쌍에 대한 동사를 사전적으로 분류하고 감지하는 방법을 제안합니다. 또한, Social Fabric(사회적 구조)이라는 인코딩 방식을 제안하는데, 이는 객체 튜블릿 쌍을 상호작용 원시형(primitives)의 조합으로 표현합니다. 이러한 원시형은 모든 관계에 대해 학습되며, 결과적으로 비디오 내에서 동시에 발생하는 객체 튜블릿 쌍의 시간대별 관계를 정확히 위치시키고 분류할 수 있는 효율적인 표현을 제공합니다. 이 인코딩 방식은 우리의 두 단계 네트워크를 가능하게 합니다. 첫 번째 단계에서는 Social Fabric을 훈련하여 상호작용 가능성이 높은 제안들을 추천하도록 합니다. 두 번째 단계에서는 Social Fabric을 사용하여 튜블릿의 동사 라벨을 동시에 미세 조정(fine-tune)하고 예측합니다. 실험 결과는 초기 비디오 관계 모델링, 우리의 인코딩 방식 및 두 단계 아키텍처의 장점을 입증하며, 두 벤치마크에서 새로운 최신 성능(state-of-the-art)을 달성하였습니다. 또한, 이 인코딩 방식이 공간-시간적 비디오 관계 검색(query-by-primitive-example)을 가능하게 하는 방법도 보여줍니다. 코드: https://github.com/shanshuo/Social-Fabric.