17일 전

효율적인 비디오 처리를 위한 델타 디스틸레이션

Amirhossein Habibian, Haitam Ben Yahia, Davide Abati, Efstratios Gavves, Fatih Porikli
효율적인 비디오 처리를 위한 델타 디스틸레이션
초록

본 논문은 영상 프레임 간 존재하는 시간적 중복성(time-dependent redundancy)을 활용하여 객체 탐지 및 세분화(semantic segmentation)와 같은 영상 스트림 처리 속도를 가속화하는 것을 목표로 한다. 기존의 광학 흐름(optical flow)과 같은 운동 정렬(motion alignment)을 통한 특징 전파 및 왜곡(warping) 방식이 아닌, 새로운 지식 증류(knowledge distillation) 기법인 델타 증류(Delta Distillation)를 제안한다. 본 방법에서는 학생 모델(student)이 교사 모델(teacher)의 중간 특징이 시간에 따라 어떻게 변화하는지를 학습한다. 우리는 영상 프레임 내부의 시간적 중복성 덕분에 이러한 시간적 변화를 효과적으로 증류할 수 있음을 입증한다. 추론 과정에서는 교사 모델과 학생 모델이 협력하여 예측을 수행한다. 교사 모델은 키 프레임(key-frame)에서만 추출한 초기 표현을 제공하고, 학생 모델은 차례로 다음 프레임에 대한 변화량(delta)을 추정하고 적용함으로써 반복적으로 예측을 개선한다. 또한, 최적의 학생 모델 아키텍처를 학습하기 위해 다양한 설계 선택지를 고려하며, 엔드 투 엔드(end-to-end) 학습 가능한 아키텍처 탐색 기법을 포함한다. 다양한 아키텍처, 특히 가장 효율적인 아키텍처들을 대상으로 실시한 광범위한 실험을 통해, 델타 증류가 영상 내 세분화 및 객체 탐지 작업에서 정확도와 효율성의 균형(accuracy vs. efficiency trade-off) 측면에서 새로운 최고 수준의 성능을 달성함을 보여준다. 마지막으로, 델타 증류는 부가적인 효과로서 교사 모델의 시간적 일관성(temporal consistency)을 향상시킨다는 점도 입증한다.

효율적인 비디오 처리를 위한 델타 디스틸레이션 | 최신 연구 논문 | HyperAI초신경