2달 전

축 궤도를 따라 객체 추적을 이용한 간단한 비디오 세그멘터

Ju He; Qihang Yu; Inkyu Shin; Xueqing Deng; Alan Yuille; Xiaohui Shen; Liang-Chieh Chen

초록

비디오 세그멘테이션은 시간에 걸쳐 일관되게 객체를 세그먼트화하고 추적하는 것을 필요로 합니다. 고해상도 입력 특성을 가진 비디오 세그멘테이션에 직접적으로 자기 주의(self-attention)를 적용하면 입력 크기에 대한 이차적 의존성이 발생하여, 종종 GPU 메모리 용량 부족 문제를 초래합니다. 따라서 현대의 비디오 세그멘테이션 모델들은 이미지 세그멘테이션 모델을 확장하면서 시간적 주의를 전혀 포함하지 않거나, 단순한 방식으로 윈도우 시공간 주의(window space-time attention)를 사용합니다. 본 연구에서는 Axial-VS라는 일반적이면서 간단한 프레임워크를 제시합니다. 이 프레임워크는 객체가 축 방향 경로(axial trajectories)를 따라 추적되는 것을 통해 비디오 세그멘테이션을 강화합니다. Axial-VS는 클립 내 단기 세그멘테이션과 클립 간 장기 추적이라는 두 가지 하위 작업을 통해 비디오 세그멘테이션 문제를 해결합니다. 첫 번째 단계에서 Axial-VS는 기존의 클립 수준 비디오 세그멘테이션 모델에 제안된 축 방향 경로 주의(axial-trajectory attention)를 추가하여, 클립 내에서 높이와 너비 경로(height- and width-trajectories)를 따라 순차적으로 객체를 추적함으로써 움직임 경로(motion trajectories)를 포착하여 시간적 일관성을 향상시킵니다. 축 분해(axial decomposition)는 밀집된 특성에 대한 계산 복잡도를 크게 줄이고, 윈도우 시공간 주의보다 세그멘테이션 품질에서 우수한 성능을 보입니다. 두 번째 단계에서는 클립 수준 세그멘터에서 학습된 객체 쿼리(object queries)에 축 방향 경로 주의(axial-trajectory attention)를 더 활용하여, 다른 클립 간 객체 추적을 돕고 전체 비디오에서 일관된 세그멘테이션을 달성합니다. 복잡한 추가 기법 없이 Axial-VS는 비디오 세그멘테이션 벤치마크에서 최신 결과들을 보여주며, 현대 클립 수준 비디오 세그멘터들의 한계점을 해결하는 데 그 효과성을 강조합니다. 코드와 모델은 https://github.com/TACJu/Axial-VS 에서 확인할 수 있습니다.