
주제 일관성 생성(SCG, Subject-Consistent Generation)은 다양한 장면에서 주제의 일관된 정체성을 유지하는 것을 목표로 하지만, 텍스트-이미지(T2I, Text-to-Image) 모델에 있어 여전히 도전적인 과제입니다. 기존의 학습 없이 SCG를 수행하는 방법들은 레이아웃과 자세의 다양성을 희생하면서 일관성을 달성하는 경우가 많아, 표현력 있는 시각적 이야기 전달을 방해합니다. 이러한 제한을 해결하기 위해 우리는 주제 일관성과 자세 다양성을 갖춘 T2I 프레임워크인 CoDi(주제-일관적이고 자세-다양한 T2I 프레임워크)를 제안합니다. 확산 과정의 점진적인 특성을 활용하여 조악한 구조가 초기에 나타나고 세부 사항이 후기에 개선되는 원리를 바탕으로, CoDi는 두 단계 전략인 정체성 이송(IT, Identity Transport)과 정체성 개선(IR, Identity Refinement)을 채택합니다.IT는 초기 노이즈 제거 단계에서 작동하며, 최적 이송(optimal transport)을 사용하여 각 대상 이미지에 포즈 인식 방식으로 정체성 특징을 전송합니다. 이는 주제 일관성을 강화하면서 포즈 다양성을 유지할 수 있도록 합니다. IR은 후기 노이즈 제거 단계에서 적용되며, 가장 눈에 띄는 정체성 특징들을 선택하여 주제 세부 사항을 더욱 개선합니다. 주제 일관성, 포즈 다양성 및 프롬프트 충실도(prompt fidelity)에 대한 광범위한 질적 및 양적 결과들이 보여주듯, CoDi는 모든 지표에서 더 우수한 시각적 인식과 성능을 달성하였습니다. 코드는 https://github.com/NJU-PCALab/CoDi 에 제공됩니다.