
초록
현저한 행동을 넘어서 이미지를 이해하기 위해서는 장면의 맥락, 객체, 그리고 그들이 촬영된 사건 속에서 수행하는 역할에 대해 추론할 필요가 있다. 최근 들어 상황 인식(Situation Recognition)은 동사(행동)와 동작 프레임 형태의 의미적 역할 및 실체(명사) 쌍을 함께 추론하는 작업으로 제안되었다. 이미지에 동작 프레임을 레이블링하는 것은 관측된 이미지 콘텐츠를 바탕으로 역할에 대한 값을(명사) 할당하는 것을 의미한다. 이 과정에는 출력 역할 할당 간의 풍부한 조건부 구조적 종속성과 전체적인 의미적 희소성이라는 본질적인 과제들이 존재한다. 본 논문에서는 이러한 과제를 해결하기 위해 새로운 혼합 커널 주의력 그래프 신경망(GNN) 아키텍처를 제안한다. 제안하는 GNN은 그래프 주의력 메커니즘을 활용하여 학습 및 추론 과정에서 동적으로 그래프 구조를 조정하고, 역할 쌍 간의 맥락 인지형 상호작용을 가능하게 한다. 제안한 모델과 설계 선택의 유효성을 imSitu 벤치마크 데이터셋을 이용한 실험을 통해 입증하였으며, 기존 최고 성능 모델 대비 최대 10%의 정확도 향상을 달성하였다.