주요 마스크 제안을 활용한 비지도 의미 분할 향상

비지도 의미 분할은 이미지를 주석 없이 이미지 코퍼스 내에서 전역적인 의미 범주를 식별하여 의미上有意義한 영역으로 자동으로 분할하는 것을 목표로 합니다. 최근 자기지도 표현 학습의 발전을 바탕으로, 우리는 이러한 대규모 사전 학습 모델을 비지도 분할이라는 하류 작업에 활용하는 방법에 초점을 맞추고 있습니다. 우리는 PriMaPs (Principal Mask Proposals)를 제시합니다. 이는 이미지를 그들의 특징 표현을 기반으로 의미上有意義한 마스크로 분해하는 것입니다. 이를 통해 PriMaPs-EM이라는 확률적 기대 최대화 알고리즘을 사용하여 클래스 프로토타입을 PriMaPs에 맞춤으로써 비지도 의미 분할을 실현할 수 있습니다. 개념적으로 단순함에도 불구하고, PriMaPs-EM은 DINO와 DINOv2를 포함한 다양한 사전 학습 백본 모델과 Cityscapes, COCO-Stuff, Potsdam-3 등의 다양한 데이터셋에서 경쟁력 있는 결과를 도출합니다. 특히, PriMaPs-EM은 현재 최신 비지도 의미 분할 파이프라인에 직교적으로 적용될 때 결과를 향상시키는 능력을 가지고 있습니다. 코드는 https://github.com/visinf/primaps에서 제공됩니다.注:在翻译中,“意义上有意義的”重复出现,可能是由于原文中的“semantically meaningful”被直译了两次。为了使译文更加自然流畅,建议将其中一个“意义上有意義的”简化为“의미 있는”。以下是优化后的版本:비지도 의미 분할은 이미지를 주석 없이 이미지 코퍼스 내에서 전역적인 의미 범주를 식별하여 의미 있는 영역으로 자동으로 분할하는 것을 목표로 합니다. 최근 자기지도 표현 학습의 발전을 바탕으로, 우리는 이러한 대규모 사전 학습 모델을 비지도 분할이라는 하류 작업에 활용하는 방법에 초점을 맞추고 있습니다. 우리는 PriMaPs (Principal Mask Proposals)를 제시합니다. 이는 이미지를 그들의 특징 표현을 기반으로 의미 있는 마스크로 분해하는 것입니다. 이를 통해 PriMaPs-EM이라는 확률적 기대 최대화 알고리즘을 사용하여 클래스 프로토타입을 PriMaPs에 맞춤으로써 비지도 의미 분할을 실현할 수 있습니다. 개념적으로 단순함에도 불구하고, PriMaPs-EM은 DINO와 DINOv2를 포함한 다양한 사전 학습 백본 모델과 Cityscapes, COCO-Stuff, Potsdam-3 등의 다양한 데이터셋에서 경쟁력 있는 결과를 도출합니다. 특히, PriMaPs-EM은 현재 최신 비지도 의미 분할 파이프라인에 직교적으로 적용될 때 결과를 향상시키는 능력을 가지고 있습니다. 코드는 https://github.com/visinf/primaps에서 제공됩니다.