X-Paste: CLIP과 StableDiffusion을 활용한 개체 세그멘테이션을 위한 확장 가능한 복사-붙여넣기 기법의 재검토

복사-붙여넣기(Copy-Paste)는 인스턴스 세그멘테이션에 효과적이고 간단한 데이터 증강 전략이다. 임의로 객체 인스턴스를 새로운 배경 이미지에 붙여넣음으로써 무료로 새로운 학습 데이터를 생성할 수 있으며, 특히 희귀한 객체 카테고리에 대해 세그멘테이션 성능을 크게 향상시킨다. 복사-붙여넣기 전략에서 다양한 고품질의 객체 인스턴스를 사용할수록 성능 향상이 더 크지만, 기존 연구들은 인간의 레이블링을 통해 얻은 인스턴스 세그멘테이션 데이터셋에서 또는 3D 객체 모델을 렌더링하여 얻은 인스턴스를 사용해 왔다. 그러나 두 방법 모두 다양한 인스턴스를 확보하기 위해 규모를 확장하기에는 너무 비용이 크다. 본 논문에서는 최신 등장한 제로샷 인식 모델(예: CLIP)과 텍스트-이미지 생성 모델(예: StableDiffusion)의 능력을 활용하여, 대규모에서 복사-붙여넣기를 재검토한다. 우리는 처음으로, 텍스트-이미지 모델을 활용해 다양한 객체 카테고리에 대해 이미지를 생성하거나, 제로샷 인식 모델을 사용해 노이즈가 포함된 크롤링된 이미지를 필터링하는 것이 복사-붙여넣기 전략의 진정한 확장 가능성을 가능하게 한다는 점을 입증한다. 이러한 성공을 가능하게 하기 위해, 체계적인 연구를 수행할 수 있도록 데이터 수집 및 처리 프레임워크인 ‘X-Paste’를 설계하였다. LVIS 데이터셋에서 X-Paste는 백본으로 Swin-L을 사용하는 강력한 기준 모델인 CenterNet2에 비해 뚜렷한 성능 향상을 제공한다. 구체적으로, 모든 클래스에서 박스 AP(+2.6), 마스크 AP(+2.1) 향상을 달성하였으며, 특히 긴 꼬리(long-tail) 클래스에서는 박스 AP +6.8, 마스크 AP +6.5의 더 큰 성능 향상을 기록하였다. 본 연구의 코드와 모델은 https://github.com/yoctta/XPaste 에서 공개된다.