시간적 중요도 쿼리 네트워크를 통한 효율적인 비디오 인식

인터넷 및 모바일 기기에서 멀티미디어 데이터의 폭발적 증가와 함께, 효율적인 비디오 인식은 핫스팟 연구 주제가 되었다. 기존의 대부분의 방법들은 클래스별 특이성에 대한 인식 없이 주목할 만한 프레임을 선택하므로, 프레임의 주목도와 해당 클래스 간의 내재된 연관성을 간과하고 있다. 이 문제를 완화하기 위해 우리는 클래스별 특이성을 반영하여 세부적인 주목도 측정을 위한 신호를 제공하는 새로운 시간적 주목도 질의(Temporal Saliency Query, TSQ) 메커니즘을 제안한다. 구체적으로, 각 클래스에 대해 해당 클래스의 공통 패턴을 질의(query)로 설정하고, 그에 가장 부합하는 주목도가 높은 프레임들을 응답(response)으로 삼는다. 이후 계산된 유사도 값을 프레임의 주목도 점수로 활용한다. 이를 구현하기 위해, 시각적 외관 유사성과 텍스트 기반 이벤트-객체 관계를 기반으로 한 두 가지 TSQ 메커니즘을 채택한 시간적 주목도 질의 네트워크(Temporal Saliency Query Network, TSQNet)를 제안한다. 이후 양방향 다중모달 상호작용을 도입하여 두 모달 간의 정보 교환을 촉진한다. 마지막으로, 두 모달이 각각 가장 확신도가 높은 클래스들에 대해 생성한 클래스별 주목도 정보를 기반으로 주목할 만한 프레임을 선택한다. 대규모 실험을 통해 ActivityNet, FCVID, Mini-Kinetics 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성함으로써 본 방법의 효과성을 입증하였다. 본 연구의 프로젝트 페이지는 다음 링크에서 확인할 수 있다: https://lawrencexia2008.github.io/projects/tsqnet.