자기-편집된 마스킹 오토인코더는 효율적인 동영상 이상 탐지기이다.

우리는 영상 프레임 수준에서 경량화된 마스킹된 오토인코더(Masked Auto-encoder, AE)를 적용한 효율적인 비정상 이벤트 탐지 모델을 제안한다. 제안하는 모델의 혁신성은 세 가지 측면에서 나타난다. 첫째, 정적 배경 장면이 아닌 전경 객체에 주목하기 위해 운동 기울기(motion gradients)를 기반으로 토큰을 가중하는 방식을 도입하였다. 둘째, 아키텍처 내부에 교사 디코더(teacher decoder)와 학습자 디코더(student decoder)를 통합하여, 두 디코더의 출력 간 차이를 활용함으로써 이상 탐지 성능을 향상시켰다. 셋째, 학습 영상의 데이터 증강을 위해 합성된 비정상 이벤트를 생성하고, 마스킹된 AE 모델이 원본 프레임(이상 없음)과 해당 프레임의 픽셀 수준 이상 지도(pixel-level anomaly maps)를 동시에 재구성하도록 훈련시켰다. 제안한 설계는 Avenue, ShanghaiTech, UBnormal, UCSD Ped2 네 가지 벤치마크에서 실시한 광범위한 실험을 통해 효율적이고 효과적인 모델임을 입증하였다. 실험 결과, 본 모델은 속도와 정확도 사이에서 뛰어난 균형을 달성하며 경쟁적인 AUC 점수를 기록하면서도 초당 1,655 프레임(fps)을 처리할 수 있었다. 따라서 제안 모델은 기존의 경쟁 방법들보다 8~70배 빠른 성능을 보였다. 또한, 제안된 설계의 타당성을 입증하기 위해 아블레이션 스터디(ablation study)를 수행하였다. 본 연구의 코드는 공개되어 있으며, 아래 링크에서 자유롭게 다운로드 가능하다: https://github.com/ristea/aed-mae.