
초록
영상 속에서 인간은 어떻게 객체를 인식하는가? 단일 프레임의 품질이 저하된 경우, 한 장의 이미지 내부의 정보만으로는 가려진 객체를 식별하는 것이 어려울 수 있다. 우리는 영상에서 객체를 인식하는 데 있어 인간이 활용하는 두 가지 중요한 단서가 존재한다고 주장한다. 바로 전역적 의미 정보(global semantic information)와 국소적 위치 정보(local localization information)이다. 최근 많은 연구들은 키 프레임의 특징을 전역적 의미 정보나 국소적 위치 정보를 통해 강화하기 위해 자기 주의(self-attention) 메커니즘을 도입하고 있다. 본 논문에서는 전역적 정보와 국소적 정보를 동시에 충분히 고려한 최초의 시도 중 하나인 메모리 강화 전역-국소 집합(Memory Enhanced Global-Local Aggregation, MEGA) 네트워크를 제안한다. 더불어, 새로운 설계된 장거리 메모리(Long Range Memory, LRM) 모듈의 지원을 받아 MEGA는 이전 어떤 방법보다 훨씬 더 �-rich한 콘텐츠에 접근할 수 있도록 한다. 이러한 두 가지 정보 소스를 통합함으로써, 본 연구 방법은 ImageNet VID 데이터셋에서 최신 기술 수준의 성능을 달성하였다. 코드는 \url{https://github.com/Scalsol/mega.pytorch}에서 공개되어 있다.