MultiRef: 다중 시각적 참조를 이용한 제어 가능한 이미지 생성

시각 디자이너들은 자연스럽게 다양한 시각적 참조에서 영감을 얻으며, 서로 다른 요소와 미학적 원칙을 결합하여 예술 작품을 창작한다. 그러나 현재의 이미지 생성 프레임워크는 주로 단일 소스 입력에 의존하고 있다. 즉, 텍스트 프롬프트나 단일 참조 이미지 중 하나를 사용한다. 본 논문에서는 다중 시각적 참조를 활용한 제어 가능한 이미지 생성 작업에 초점을 맞춘다. 우리는 다중 참조 이미지의 시각적 콘텐츠를 통합해야 하는 990개의 합성 샘플과 1,000개의 실제 세계 샘플로 구성된 엄격한 평가 프레임워크인 MultiRef-bench를 제안한다. 합성 샘플은 데이터 엔진 RefBlend를 통해 생성되었으며, 10종의 참조 유형과 33가지 참조 조합을 포함한다. RefBlend 기반으로, 향후 연구를 촉진하기 위한 38,000개의 고품질 이미지를 포함하는 데이터셋 MultiRef도 구축하였다. 세 가지 혼합 이미지-텍스트 모델(OmniGen, ACE, Show-o)과 여섯 가지 에이전트 기반 프레임워크(예: ChatDiT 및 LLM + SD)를 대상으로 수행한 실험 결과, 최첨단 시스템조차 다중 참조 조건부 생성에서 어려움을 겪는 것으로 나타났다. 최고 성능을 보인 OmniGen 모델도 합성 샘플에서는 평균 66.6%, 실제 세계 사례에서는 79.0%의 성능에 그쳤으며, 이는 황금 기준(Golden Answer) 대비의 평균 정확도이다. 이러한 결과는 다양한 시각적 영감을 효과적으로 통합할 수 있는 더 유연하고 인간처럼 창의적인 도구 개발을 위한 중요한 방향성을 제시한다. 본 연구에서 제시한 데이터셋은 다음 링크에서 공개되어 있다: https://multiref.github.io/.