17일 전

상황 인식: 이미지 이해를 위한 시각적 의미 역할 레이블링

{Luke Zettlemoyer, Ali Farhadi, Mark Yatskar}
상황 인식: 이미지 이해를 위한 시각적 의미 역할 레이블링
초록

이 논문은 이미지가 묘사하는 상황에 대한 간결한 요약을 생성하는 문제인 상황 인식(situation recognition)을 소개한다. 이는 다음과 같은 요소들을 포함한다: (1) 주요 활동(예: 깎기), (2) 참여하는 주체, 물체, 물질, 장소(예: 남자, 가위, 양, 양모, 들판), 그리고 무엇보다도 (3) 이러한 참여자가 활동 내에서 수행하는 역할(예: 남자는 깎는 중이며, 가위는 그의 도구이고, 양모는 양으로부터 깎이고 있으며, 깎기는 들판에서 이루어진다). 우리는 언어학자들이 개발한 동사와 역할 어휘인 FrameNet을 활용하여 다양한 가능한 상황 공간을 정의하고, 500개 이상의 활동, 1,700개의 역할, 11,000개의 물체, 125,000개의 이미지, 200,000개의 고유한 상황을 포함하는 대규모 데이터셋을 구축하였다. 또한 구조화된 예측 기준 모델을 제안하고, 활동 중심 이미지에서 상황 기반의 물체 및 활동 예측이 독립적인 물체 및 활동 인식보다 더 우수한 성능을 보임을 보여주었다.