
초록
본 연구는 구조화된 '이미지 상황' -- 행동과 그 행동에 관련된 의미적 역할을 수행하는 명사 개체 -- 을 예측하기 위한 순환 신경망(RNN) 모델을 제안합니다. 이전 연구들이 조건부 랜덤 필드(CRFs)에 의존한 것과 달리, 우리는 특화된 행동 예측 네트워크를 사용하여 명사 예측을 위한 RNN을 후속으로 배치하였습니다. 우리의 시스템은 도전적인 최근 imSitu 데이터셋에서 최고 수준의 정확도를 달성하며, 추가 데이터로 훈련된 CRF 기반 모델들을 능가합니다. 또한, 상황 예측에서 학습된 특화된 특징들이 인간-물체 상호작용을 더 정확히 설명하는 이미지 캡셔닝 작업으로 전이될 수 있음을 보여줍니다.