2달 전

플러그 앤 플레이 확산 특성의 텍스트 기반 이미지-이미지 변환

Narek Tumanyan; Michal Geyer; Shai Bagon; Tali Dekel
플러그 앤 플레이 확산 특성의 텍스트 기반 이미지-이미지 변환
초록

대규모 텍스트-이미지 생성 모델은 생성형 AI의 발전에서 혁신적인 돌파구를 제공하여, 매우 복잡한 시각적 개념을 전달하는 다양한 이미지를 합성할 수 있게 해주었습니다. 그러나 이러한 모델을 실제 콘텐츠 제작 작업에 활용하는 데 있어 중요한 과제는 사용자가 생성된 콘텐츠에 대한 제어를 제공하는 것입니다. 본 논문에서는 텍스트-이미지 합성을 이미지-이미지 변환 영역으로 확장하는 새로운 프레임워크를 제시합니다. 주어진 안내 이미지와 목표 텍스트 프롬프트를 바탕으로, 우리의 방법은 사전 학습된 텍스트-이미지 확산 모델의 힘을 활용하여 목표 텍스트에 부합하면서 원본 이미지의 의미적 레이아웃을 유지하는 새로운 이미지를 생성합니다. 구체적으로, 우리는 세부적인 제어가 모델 내부의 공간 특성과 그 자기 주의(self-attention)를 조작함으로써 달성될 수 있음을 관찰하고 경험적으로 입증하였습니다. 이로 인해 안내 이미지에서 추출된 특성이 목표 이미지의 생성 과정에 직접 주입되는 간단하면서도 효과적인 접근 방식이 도출되었습니다. 이 방법은 추가 학습이나 미세 조정(fine-tuning) 없이도 적용 가능하며, 실제 또는 생성된 안내 이미지를 모두 지원합니다. 우리는 스케치, 대략적인 그림 및 애니메이션을 실제 이미지로 변환하거나, 주어진 이미지 내 객체의 클래스와 외관 변경, 전체적인 화질 such as 조명과 색상 수정 등 다양한 텍스트 지도 하의 이미지 변환 작업에서 고품질 결과를 보여주었습니다.(번역 노트: "self-attention"과 "fine-tuning"은 해당 분야에서 일반적으로 사용되는 용어로, 한국어로는 각각 "자기 주의"와 "미세 조정"으로 번역하였습니다.)

플러그 앤 플레이 확산 특성의 텍스트 기반 이미지-이미지 변환 | 최신 연구 논문 | HyperAI초신경