2달 전
경쟁적 협업: 깊이, 카메라 움직임, 광학 흐름 및 운동 분할의 공동 비지도 학습
Anurag Ranjan; Varun Jampani; Lukas Balles; Kihwan Kim; Deqing Sun; Jonas Wulff; Michael J. Black

초록
저희는 저수준 시각에서 여러 개의 상호 연관된 문제들의 비지도 학습을 다룹니다: 단일 뷰 깊이 예측, 카메라 운동 추정, 광학 흐름, 그리고 비디오를 정적 장면과 움직이는 영역으로 분할하는 문제입니다. 저희의 핵심 통찰력은 이 네 가지 기본적인 시각 문제들이 기하 제약 조건을 통해 결합되어 있다는 것입니다. 따라서 이들을 함께 해결하는 방법을 배우면 문제가 단순화되며, 각각의 해결책이 서로를 강화할 수 있습니다. 저희는 기하학을 더욱 명시적으로 활용하고, 장면을 정적 영역과 움직이는 영역으로 분할함으로써 기존 연구를 넘어섭니다. 이를 위해 저희는 Competitive Collaboration(경쟁 협업)이라는 프레임워크를 소개합니다. 이 프레임워크는 여러 전문적인 신경망이 복잡한 문제를 해결하기 위해 조정된 훈련을 받도록 지원합니다. 경쟁 협업은 기대 최대화 알고리즘과 유사하게 작동하지만, 신경망이 정적 또는 움직이는 영역에 해당하는 픽셀을 설명하는 경쟁자 역할과 중재자가 픽셀을 정적 또는 독립적으로 움직이는 것으로 할당하는 협력자 역할을 동시에 수행합니다. 저희의 새로운 방법론은 모든 이러한 문제들을 공통 프레임워크로 통합하고, 장면 내의 움직이는 객체와 정적 배경 간의 분할, 카메라 운동, 정적 장면 구조의 깊이, 그리고 움직이는 객체들의 광학 흐름에 대해 동시에 추론합니다. 저희 모델은 어떠한 감독도 없이 훈련되었으며, 모든 하위 문제에서 공동 비지도 방법들 사이에서 최고 성능을 달성하였습니다.