17일 전

스트리밍 비디오 분석을 위한 표현 재사용

Can Ufuk Ertenli, Ramazan Gokberk Cinbis, Emre Akbas
스트리밍 비디오 분석을 위한 표현 재사용
초록

우리는 각 프레임당 최소한의 계산량으로 영상의 프레임 단위 표현을 추론하는 데 목표를 둔 StreamDEQ 방법을 제안한다. 기존의 딥 네트워크는 특별한 최적화 없이 각 프레임에서 다시 시작하여 특징을 추출한다. 반면, 우리는 연속된 영상 프레임 간의 시간적 부드러움을 자연스럽게 활용할 수 있는 스트리밍 인식 모델을 구축하는 것을 목표로 한다. 최근 부상하고 있는 은유적 레이어 모델이 이러한 모델을 구축하는 편리한 기반을 제공한다는 점을 관찰했다. 이 모델들은 반복적인 방법을 통해 추정해야 하는 얕은 네트워크의 고정점(fixed-point)으로 표현을 정의하기 때문이다. 본 연구의 핵심 통찰은 각 프레임에서 가장 최근의 표현을 시작점으로 삼아 추론 반복을 시간 축에 걸쳐 분산시키는 것이다. 이 방식은 최근의 추론 계산을 효과적으로 재사용하며 처리 시간을 크게 감소시킨다. 광범위한 실험 분석을 통해 StreamDEQ가 몇 프레임 내에 거의 최적의 표현을 복원하고 영상 전체 기간 동안 최신 상태의 표현을 유지할 수 있음을 입증하였다. 영상 세그멘테이션, 영상 객체 탐지, 영상 내 인간 자세 추정 등 다양한 실험에서, StreamDEQ는 기준 모델과 비슷한 정확도를 달성하면서도 2배에서 4배 이상 빠른 속도를 보였다.

스트리밍 비디오 분석을 위한 표현 재사용 | 최신 연구 논문 | HyperAI초신경