2달 전

InstanceDiffusion: 이미지 생성을 위한 인스턴스 수준 제어

Wang, Xudong ; Darrell, Trevor ; Rambhatla, Sai Saketh ; Girdhar, Rohit ; Misra, Ishan
InstanceDiffusion: 이미지 생성을 위한 인스턴스 수준 제어
초록

텍스트-이미지 확산 모델은 고품질 이미지를 생성하지만, 이미지 내 개별 인스턴스에 대한 제어는 제공하지 않습니다. 우리는 이 문제를 해결하기 위해 InstanceDiffusion을 소개합니다. InstanceDiffusion은 텍스트-이미지 확산 모델에 정밀한 인스턴스 수준의 제어를 추가합니다. 이 모델은 각 인스턴스당 자유형 언어 조건을 지원하며, 단순한 단일 점, 스케치, 경계 상자 또는 복잡한 인스턴스 분할 마스크와 같은 다양한 방법으로 인스턴스 위치를 지정할 수 있으며, 이러한 방법들의 조합도 가능합니다.우리는 텍스트-이미지 모델에서 정밀한 인스턴스 수준의 제어를 가능하게 하는 세 가지 주요 변경점을 제안합니다. 우리의 UniFusion 블록은 텍스트-이미지 모델에 인스턴스 수준의 조건을 적용할 수 있게 합니다. ScaleU 블록은 이미지 충실도를 개선하며, Multi-instance Sampler는 여러 인스턴스에 대한 생성을 개선합니다. InstanceDiffusion은 각 위치 조건에 대해 특화된 최신 기술 모델들을 크게 능가합니다. 특히 COCO 데이터셋에서, 박스 입력에 대해 이전 최신 기술보다 20.4% AP$_{50}^\text{box}$를 높이고, 마스크 입력에 대해서는 25.4% IoU를 개선했습니다.