4달 전

DMM-Net: 영상 객체 분할을 위한 미분 가능한 마스크 매칭 네트워크

Xiaohui Zeng; Renjie Liao; Li Gu; Yuwen Xiong; Sanja Fidler; Raquel Urtasun
DMM-Net: 영상 객체 분할을 위한 미분 가능한 마스크 매칭 네트워크
초록

본 논문에서는 초기 객체 마스크가 제공되는 비디오 객체 분할 문제를 해결하기 위해 미분 가능한 마스크 매칭 네트워크(Differentiable Mask-Matching Network, DMM-Net)를 제안합니다. Mask R-CNN 백본을 기반으로 각 프레임에서 마스크 제안을 추출하고, 시간 단계에서 객체 템플릿과 제안 사이의 매칭을 비용 행렬이 CNN에 의해 예측되는 선형 할당 문제로 정식화합니다. Dykstra의 알고리즘을 활용하는 투영 경사 하강법을 펼치는 방법으로 미분 가능한 매칭 레이어를 제안합니다. 우리는 경미한 조건 하에서 매칭이 최적해로 수렴함을 증명하였습니다. 실제 적용에서는 추론 시匈가리알고리즘과 유사한 성능을 보입니다. 또한, 비용 행렬 학습을 위해 역전파를 수행할 수 있습니다. 매칭 후, 정교화 헤드를 활용하여 매칭된 마스크의 품질을 개선합니다. 우리의 DMM-Net은 가장 큰 비디오 객체 분할 데이터셋인 YouTube-VOS에서 경쟁력 있는 결과를 달성하였습니다. DAVIS 2017 데이터셋에서는 첫 번째 프레임에 대한 온라인 학습 없이도 최상의 성능을 보였습니다. 어떠한 미세 조정 없이도 SegTrack v2 데이터셋에서 최신 방법들과 비교할 만한 성능을 보였습니다. 마지막으로, 우리의 매칭 레이어는 매우 간단하게 구현할 수 있으며, 부록 자료에 PyTorch 코드(50줄 미만)를 첨부하였습니다. 우리의 코드는 https://github.com/ZENGXH/DMM_Net 에 공개되었습니다.注:在“实际应用中”后面的部分,“匈牙利算法”是正确的翻译,但为了保持句子的流畅性和完整性,建议将其放在括号内作为注释。修正后的版本如下:본 논문에서는 초기 객체 마스크가 제공되는 비디오 객체 분할 문제를 해결하기 위해 미분 가능한 마스크 매칭 네트워크(Differentiable Mask-Matching Network, DMM-Net)를 제안합니다. Mask R-CNN 백본을 기반으로 각 프레임에서 마스크 제안을 추출하고, 시간 단계에서 객체 템플릿과 제안 사이의 매칭을 비용 행렬이 CNN에 의해 예측되는 선형 할당 문제로 정식화합니다. Dykstra의 알고리즘을 활용하는 투영 경사 하강법을 펼치는 방법으로 미분 가능한 매칭 레이어를 제안합니다. 우리는 경미한 조건 하에서 매칭이 최적해로 수렴함을 증명하였습니다. 실제 적용에서는 추론 시 (Hungarian algorithm)와 유사한 성능을 보입니다. 또한, 비용 행렬 학습을 위해 역전파를 수행할 수 있습니다. 매칭 후, 정교화 헤드를 활용하여 매칭된 마스크의 품질을 개선합니다. 우리의 DMM-Net은 가장 큰 비디오 객체 분할 데이터셋인 YouTube-VOS에서 경쟁력 있는 결과를 달성하였습니다. DAVIS 2017 데이터셋에서는 첫 번째 프레임에 대한 온라인 학습 없이도 최상의 성능을 보였습니다. 어떠한 미세 조정 없이도 SegTrack v2 데이터셋에서 최신 방법들과 비교할 만한 성능을 보였습니다. 마지막으로, 우리의 매칭 레이어는 매우 간단하게 구현할 수 있으며, 부록 자료에 PyTorch 코드(50줄 미만)를 첨부하였습니다. 우리의 코드는 https://github.com/ZENGXH/DMM_Net 에 공개되었습니다.