2달 전

참조 이미지 매팅

Jizhizi Li; Jing Zhang; Dacheng Tao
참조 이미지 매팅
초록

전통적인 이미지 매팅과 달리, 사용자 정의 스케치/트리맵이 필요하거나 이미지 내 모든 전경 객체를 무차별적으로 추출하는 것과는 다르게, 본 논문에서는 주어진 자연어 설명과 가장 잘 일치하는 특정 객체의 세밀한 알파 마스크를 추출하는 새로운 작업인 참조 이미지 매팅(Referring Image Matting, RIM)을 소개합니다. 이를 통해 이미지 매팅에 대한 보다 자연스럽고 간단한 지시가 가능해집니다. 먼저, 공개 데이터셋을 기반으로 종합적인 이미지 합성 및 표현 생성 엔진을 설계하여 고품질 이미지와 다양한 텍스트 속성을 자동으로 생성하여 대규모 도전적인 데이터셋인 RefMatte를 구축하였습니다. RefMatte는 230개의 객체 카테고리, 47,500장의 이미지, 118,749개의 표현-영역 엔티티, 그리고 474,996개의 표현으로 구성되어 있습니다. 또한, 실제 세계 테스트셋을 구축하여 100장의 고해상도 자연 이미지를 포함하고 있으며, 복잡한 문구를 수작업으로 주석 처리하여 RIM 방법들의 영역 외 일반화 능력을 평가할 수 있도록 하였습니다. 더불어, RIM을 위한 새로운 베이스라인 방법인 CLIPMat를 제시합니다. 이 방법은 컨텍스트 임베딩 프롬프트(context-embedded prompt), 텍스트 기반 의미 팝업(text-driven semantic pop-up), 그리고 다중 레벨 디테일 추출기(multi-level details extractor)로 구성됩니다. RefMatte에서 수행된 광범위한 실험은 키워드 및 표현 설정 모두에서 CLIPMat가 대표적인 방법들보다 우수함을 입증하였습니다. 우리는 이 연구가 이미지 매팅 분야에 새로운 통찰력을 제공하고 후속 연구들을 더욱 촉진하기를 바랍니다. 데이터셋, 코드 및 모델은 https://github.com/JizhiziLi/RIM에서 이용 가능합니다.

참조 이미지 매팅 | 최신 연구 논문 | HyperAI초신경