자기 감독 비디오 객체 분할을 위한 변형 주의의 증류 학습

비디오 객체 분할은 컴퓨터 비전에서 기본적인 연구 문제입니다. 최근 기술들은 종종 비디오 시퀀스에서 객체 표현 학습을 위해 주의 메커니즘을 적용해 왔습니다. 그러나 비디오 데이터의 시간적 변화로 인해 주의 맵이 비디오 프레임 간에 관심 객체와 잘 일치하지 않을 수 있으며, 이는 장기적인 비디오 처리에서 누적 오류를 초래할 수 있습니다. 또한, 기존 기술들은 복잡한 아키텍처를 사용하여 높은 계산 복잡도가 필요하며, 이로 인해 저전력 디바이스에 비디오 객체 분할을 통합하는 능력이 제한됩니다.이러한 문제들을 해결하기 위해, 우리는 변형 가능한 주의 메커니즘을 활용한 자기 감독 비디오 객체 분할 방법을 제안합니다. 구체적으로, 시간적 변화에 효과적으로 적응할 수 있는 경량화된 아키텍처를 설계하였습니다. 이는 변형 가능한 주의 메커니즘을 통해 가능하며, 주의 모듈에서 비디오 시퀀스의 기억을 캡처하는 키와 값들이 프레임 간에 유연하게 업데이트됩니다. 따라서 학습된 객체 표현은 공간적 및 시간적 차원 모두에 적응됩니다.우리는 새로운 지식 증류 패러다임을 통해 제안된 아키텍처를 자기 감독 방식으로 훈련시키며, 이 과정에서 변형 가능한 주의 맵이 증류 손실(distillation loss)에 통합됩니다. 우리는 DAVIS 2016/2017 및 YouTube-VOS 2018/2019와 같은 벤치마크 데이터셋에서 본 방법론을 정성적으로와 정량적으로 평가하고 기존 방법들과 비교하였습니다. 실험 결과는 본 방법론이 최고 수준의 성능과 최적의 메모리 사용을 통해 우수함을 입증하였습니다.