17일 전

SSMTL++: 비디오 이상 탐지를 위한 자기지도 다중 작업 학습 재검토

Antonio Barbalau, Radu Tudor Ionescu, Mariana-Iuliana Georgescu, Jacob Dueholm, Bharathkumar Ramachandra, Kamal Nasrollahi, Fahad Shahbaz Khan, Thomas B. Moeslund, Mubarak Shah
SSMTL++: 비디오 이상 탐지를 위한 자기지도 다중 작업 학습 재검토
초록

최근 문헌에서 영상 이상 탐지를 위한 자기지도 다중 작업 학습(Self-supervised Multi-task Learning, SSMTL) 프레임워크가 제안되었다. 이 방법은 매우 높은 정확도를 보여주어 많은 연구자들의 주목을 받았다. 본 연구에서는 이러한 자기지도 다중 작업 학습 프레임워크를 재검토하며 원래 방법에 대한 여러 개선 사항을 제안한다. 첫째, 현재 사용 중인 사전 훈련된 YOLOv3 모델이 최적화되지 않았다고 판단하여, 광학 흐름 기반의 고속도 영역 탐지나 배경 제거 기반의 탐지 방법 등 다양한 탐지 기법을 검토한다. 특히 움직이는 객체나 미지 클래스의 객체는 기존의 YOLOv3로는 항상 탐지되지 않기 때문에, 이 점을 개선할 필요가 있다고 보았다. 둘째, 최근 비전 트랜스포머(Vision Transformer)의 성공 사례를 참고하여, 3D 컨볼루션 백본에 다중 헤드 자기 주도 주의(Multi-head Self-attention) 모듈을 도입함으로써 기존 구조를 현대화하였다. 이를 통해 2D 및 3D 컨볼루션 비전 트랜스포머(Convolutional Vision Transformer, CvT) 블록을 대체적으로 도입하였다. 셋째, 모델 성능을 추가로 향상시키기 위해, 지식 증류를 통한 세그멘테이션 맵 예측, 조각 퍼즐 풀이, 지식 증류를 통한 신체 자세 추정, 마스킹된 영역 예측(Inpainting), 그리고 가짜 이상 데이터를 활용한 적대적 학습과 같은 추가적인 자기지도 학습 작업을 탐색하였다. 제안된 개선 사항들의 성능 영향을 평가하기 위해 실험을 수행하였다. 더 유망한 프레임워크 구성으로서 SSMTL++v1 및 SSMTL++v2를 도출한 후, 초기 실험을 보다 많은 데이터셋으로 확장하여 성능 향상이 모든 데이터셋에서 일관되게 유지됨을 입증하였다. 특히 Avenue, ShanghaiTech, UBnormal 데이터셋에서 본 연구의 성과는 기존 최고 성능(SOTA) 기준을 새롭게 제시하며, 상당한 성능 향상을 보였다.