2달 전

다중 격자 예측 필터 흐름을 이용한 비지도 학습 동영상 처리

Shu Kong; Charless Fowlkes
다중 격자 예측 필터 흐름을 이용한 비지도 학습 동영상 처리
초록

우리는 비디오에서 비지도 학습을 위한 다중격자 예측 필터 흐름(multigrid Predictive Filter Flow, mgPFF) 프레임워크를 소개합니다. mgPFF는 프레임 쌍을 입력으로 받아 하나의 프레임을 다른 프레임으로 왜곡(warp)시키기 위한 픽셀별 필터를 출력합니다. 광학 흐름(optical flow)이 프레임을 왜곡하는 데 사용되는 것과 비교할 때, mgPFF는 서브픽셀(sub-pixel) 이동 모델링과 부식(corruption, 예: 움직임 블러) 처리에 더 강력합니다. 우리는 큰 변위를 포착하기 위해 큰 필터를 학습해야 하는 요구사항을 피하기 위한 다중격자 코스-투-파인(coarse-to-fine) 모델링 전략을 개발했습니다. 이는 공유 가중치(shared weights)를 사용하여 여러 해상도에서 점진적으로 작동하는 극히 컴팩트한 모델(4.6MB)을 학습할 수 있게 합니다. 우리는 비지도, 자유형(free-form) 비디오에서 mgPFF를 학습시키고, mgPFF가 프레임 재구성(frame reconstruction)과 비디오 샷 전환(shot transition) 감지뿐만 아니라 비디오 객체 분할(video object segmentation)과 자세 추적(pose tracking)에서도 쉽게 적용될 수 있음을 보여주었습니다. 이러한 작업들에서 mgPFF는 복잡한 기술 없이도 출판된 최신 기술(state-of-the-art)보다 크게 우수한 성능을 보입니다. 또한, mgPFF의 픽셀별 필터 예측 특성 덕분에 각 픽셀이 이러한 작업들을 해결하는 동안 어떻게 진화하는지를 시각화할 수 있는 독특한 기회를 얻게 되어 해석성이 더욱 좋아집니다.

다중 격자 예측 필터 흐름을 이용한 비지도 학습 동영상 처리 | 최신 연구 논문 | HyperAI초신경