MIGC: 텍스트-이미지 합성용 다중 인스턴스 생성 제어기

우리는 하나의 이미지에서 여러 인스턴스를 다양하게 제어하면서 동시에 생성하는 Multi-Instance Generation (MIG) 작업을 소개합니다. 사전 정의된 좌표와 해당 설명이 주어졌을 때, 이 작업은 생성된 인스턴스가 지정된 위치에 정확히 배치되도록 하고, 모든 인스턴스의 속성이 해당 설명에 맞게 적용되도록 하는 것입니다. 이는 현재 Single-instance generation 연구의 범위를 확장하여, 보다 유연하고 실용적인 차원으로 격상시킵니다.분할과 정복의 아이디어에서 영감을 받아, MIG 작업의 도전 과제를 해결하기 위한 혁신적인 접근 방식인 Multi-Instance Generation Controller (MIGC)를 제안합니다. 먼저, MIG 작업을 여러 하위 작업으로 분해하며, 각 하위 작업은 단일 인스턴스의 그늘처리(shading)를 포함합니다. 각 인스턴스에 대한 정확한 그늘처리를 보장하기 위해, 인스턴스 강화 주의 메커니즘(instance enhancement attention mechanism)을 도입하였습니다. 마지막으로, 모든 그늘 처리된 인스턴스를 집계하여 안정적인 확산(stable diffusion, SD)에서 여러 인스턴스를 정확히 생성하기 위한 필요한 정보를 제공합니다.MIG 작업에서 생성 모델들의 성능을 평가하기 위해 COCO-MIG 벤치마크와 평가 파이프라인을 제공합니다. 제안된 COCO-MIG 벤치마크뿐만 아니라 다양한 일반적으로 사용되는 벤치마크에서도 광범위한 실험을 수행하였습니다. 평가 결과는 우리의 모델이 양, 위치, 속성 및 상호작용 측면에서 뛰어난 제어 능력을 보여줍니다. 코드와 데모는 https://migcproject.github.io/ 에서 공개될 예정입니다.