18일 전

DiffusionVID: 시공간 조건부 복원을 통한 동영상 객체 탐지용 노이즈 제거 객체 박스

{Ki-Seok Chung, Si-Dong Roh}
초록

다수의 기존 영상 객체 탐지기들은 영상에서 운동 흐림, 카메라 초점 오류, 부분적 가림 등의 이미지 품질 저하 문제를 겪는다. 본 논문에서는 시공간 조건화(spatio-temporal conditioning)를 활용하는 확산 모델 기반 영상 객체 탐지기인 DiffusionVID를 제안한다. 확산 모델의 아이디어를 차용하여, DiffusionVID는 무작위 노이즈 박스를 반복적으로 개선함으로써 영상 시퀀스 내 원본 객체 박스를 추출한다. 영상에서 저품질로 퇴화된 이미지로부터 박스를 효과적으로 복원하기 위해, 세 가지 새로운 접근법을 도입하였다. 첫째, 계단식 개선(cascade refinement) 아키텍처는 객체 영역에서 정보를 효과적으로 수집한다. 둘째, 동적 코어셋 조건화(dynamic core-set conditioning)는 시공간 코어셋 기반의 적응형 조건부 가이드를 이용하여 노이즈 제거 품질을 더욱 향상시킨다. 셋째, 국소 배치 개선(local batch refinement)은 GPU의 병렬 처리 능력을 활용하여 개선 속도를 크게 향상시킨다. 표준적이고 널리 사용되는 ImageNet-VID 벤치마크에서, ResNet-101 및 Swin-Base 백본을 사용한 DiffusionVID는 각각 86.9 mAP @ 46.6 FPS 및 92.4 mAP @ 27.0 FPS의 성능을 달성하며, 현재까지 보고된 최고 수준의 성능을 기록했다. 저자들에 따르면, 본 연구는 확산 모델 기반의 첫 번째 영상 객체 탐지기이다. 코드 및 모델은 https://github.com/sdroh1027/DiffusionVID 에서 공개되어 있다.