iPerceive: 다중 모달 밀도 영상 캡셔닝 및 영상 질의 응답에 일반적 상식 추론 적용

시각적 이해 분야의 대부분 기존 연구는 '무엇이 일어났는가'(예: 이벤트 인식)와 '어디에서 일어났는가'(예: 이벤트 위치 추정)에만 초점을 맞추고 있으며, 이러한 접근은 때때로 사건 간 정확한 맥락적 관계를 설명하지 못하거나 잘못된 시각적 주의(visual attention)를 유도할 수 있다. 인간을 기계와 근본적으로 구분짓는 요소 중 하나는, 예를 들어 이벤트 X의 직접적인 결과로 발생한 이벤트 Y와 같은 어떤 연관성 뒤에 인과관계를 탐구하려는 본능이다. 본 연구에서는 이러한 인과관계를 탐구할 수 있는 프레임워크인 iPerceive를 제안한다. iPerceive는 비디오 내 객체 간 인과관계를 추론하기 위해 맥락적 단서를 활용하여 일반적인 지식 기반(common-sense knowledge base)을 구축함으로써 비디오 내 사건들 사이의 '왜'를 이해할 수 있도록 한다. 본 기술의 효과성을 밀도 높은 비디오 설명 생성(Dense Video Captioning, DVC) 및 비디오 질의 응답(Video Question Answering, VideoQA) 과제를 통해 입증하였다. 더불어, DVC 및 VideoQA 분야의 대부분 기존 연구는 시각 정보에만 의존하지만, 인간 관찰자의 환경 인식에 있어 오디오 및 음성과 같은 다른 모달리티도 매우 중요하다. 본 연구에서는 DVC 및 VideoQA 과제를 다중 모달리티를 활용하는 기계 번역 문제로 재정의하였다. ActivityNet Captions 및 TVQA 데이터셋에서 각각 iPerceive DVC 및 iPerceive VideoQA의 성능을 평가함으로써, 제안하는 방법이 기존 최고 수준의 성능을 초월함을 보였다. 코드 및 예시는 다음 웹사이트에서 확인 가능하다: iperceive.amanchadha.com.