2달 전
직접 역전: 3줄의 코드로 확산 기반 편집 강화하기
Xuan Ju; Ailing Zeng; Yuxuan Bian; Shaoteng Liu; Qiang Xu

초록
텍스트 안내형 확산 모델은 이미지 생성과 편집 분야에서 혁신을 이루어냈으며, 뛰어난 현실감과 다양성을 제공합니다. 특히, 확산 기반 편집의 맥락에서 소스 이미지를 대상 프롬프트에 따라 편집하는 경우, 이 과정은 확산 모델을 통해 소스 이미지에 해당하는 노이즈가 포함된 잠재 벡터를 획득함으로써 시작됩니다. 이 벡터는 이후 소스와 대상 확산 분기로 각각 입력되어 편집됩니다. 이 역전 과정의 정확도는 최종 편집 결과에 큰 영향을 미치며, 소스 이미지의 필수 내용 보존과 대상 프롬프트에 따른 편집 충실성 모두에 영향을 줍니다. 이전의 역전 기법들은 소스와 대상 확산 분기에서 통합된 해결책을 찾는데 중점을 두었습니다. 그러나 우리의 이론적 및 실증적 분석은 이러한 분기를 해제하면 필수 내용 보존과 편집 충실성을 담당하는 역할이 명확히 구분됨을 밝혀냈습니다. 이러한 인사이트를 바탕으로, 우리는 단 세 줄의 코드로 양쪽 분기의 최적 성능을 달성하는 새로운 기법인 "직접 역전(Direct Inversion)"을 소개합니다. 이미지 편집 성능을 평가하기 위해, 우리는 다양한 장면과 편집 유형을 보여주는 700장의 이미지를 포함한 PIE-Bench라는 편집 벤치마크를 제시합니다. 이 벤치마크는 다양한 주석과 포괄적인 평가 지표를 동반하고 있습니다. 최신 최적화 기반 역전 기법들과 비교하여, 우리의 솔루션은 8개의 편집 방법에서 우수한 성능을 나타내며, 거의 10배 가까운 속도 개선 효과를 거두었습니다.