
초록
복잡하고 역동적인 장면을 묘사한 이미지를 자동으로 해석하는 것은 전반적인 상황에 대한 고차원적 이해와 참여하는 개체 및 그 상호작용의 세부적인 식별이 필요하기 때문에 도전적이다. 현재의 접근 방식은 상황 인식과 인간-인간, 인간-물체 상호작용 검출 등의 하위 작업에 특화된 독립적인 방법들을 사용한다. 그러나 최근의 이미지 이해 연구에서는 종종 웹 규모의 시각-언어(V&L) 표현을 활용하여 작업별 엔지니어링을 생략하고 있다. 본 연구에서는 현대의 동결된 V&L 표현에서 지식을 활용하여 역동적 장면 이해 작업을 위한 프레임워크를 제안한다. 이러한 작업들을 일반적인 방식으로 정형화하여 구조화된 텍스트 예측 및 해석으로 또는 기존 모델의 입력에 표현을 직접 연결함으로써, 최소한의 학습 가능한 매개변수를 사용하면서도 최신 성능을 달성하였다. 또한, 이러한 표현들의 역동적 지식에 대한 분석 결과, 최근 더 강력한 표현들이 효과적으로 역동적 장면 의미론을 인코딩하고 있어 이 접근 방식이 새롭게 가능해졌다.