2달 전

직접 역전: 3줄의 코드로 확산 기반 편집 강화하기

Xuan Ju; Ailing Zeng; Yuxuan Bian; Shaoteng Liu; Qiang Xu
직접 역전: 3줄의 코드로 확산 기반 편집 강화하기
초록

텍스트 안내형 확산 모델은 이미지 생성과 편집 분야에서 혁신을 이루어냈으며, 뛰어난 현실감과 다양성을 제공합니다. 특히, 확산 기반 편집의 맥락에서 소스 이미지를 대상 프롬프트에 따라 편집하는 경우, 이 과정은 확산 모델을 통해 소스 이미지에 해당하는 노이즈가 포함된 잠재 벡터를 획득함으로써 시작됩니다. 이 벡터는 이후 소스와 대상 확산 분기로 각각 입력되어 편집됩니다. 이 역전 과정의 정확도는 최종 편집 결과에 큰 영향을 미치며, 소스 이미지의 필수 내용 보존과 대상 프롬프트에 따른 편집 충실성 모두에 영향을 줍니다. 이전의 역전 기법들은 소스와 대상 확산 분기에서 통합된 해결책을 찾는데 중점을 두었습니다. 그러나 우리의 이론적 및 실증적 분석은 이러한 분기를 해제하면 필수 내용 보존과 편집 충실성을 담당하는 역할이 명확히 구분됨을 밝혀냈습니다. 이러한 인사이트를 바탕으로, 우리는 단 세 줄의 코드로 양쪽 분기의 최적 성능을 달성하는 새로운 기법인 "직접 역전(Direct Inversion)"을 소개합니다. 이미지 편집 성능을 평가하기 위해, 우리는 다양한 장면과 편집 유형을 보여주는 700장의 이미지를 포함한 PIE-Bench라는 편집 벤치마크를 제시합니다. 이 벤치마크는 다양한 주석과 포괄적인 평가 지표를 동반하고 있습니다. 최신 최적화 기반 역전 기법들과 비교하여, 우리의 솔루션은 8개의 편집 방법에서 우수한 성능을 나타내며, 거의 10배 가까운 속도 개선 효과를 거두었습니다.

직접 역전: 3줄의 코드로 확산 기반 편집 강화하기 | 최신 연구 논문 | HyperAI초신경