IP-Adapter: 텍스트 호환 이미지 프롬프트 어댑터 для текст-ту-이미지 디퓨전 모델

최근 몇 년간 대형 텍스트-이미지 확산 모델의 뛰어난 생성 능력으로 고충실도 이미지를 생성하는 강력한 기능이 입증되었습니다. 그러나 텍스트 프롬프트만을 사용하여 원하는 이미지를 생성하는 것은 매우 까다롭습니다. 이는 종종 복잡한 프롬프트 엔지니어링을 필요로 하기 때문입니다. 텍스트 프롬프트의 대안으로 이미지 프롬프트가 있습니다. "사진 한 장은 천 자의 글과 같다"라는 말처럼, 이미지는 많은 정보를 담고 있습니다. 기존의 사전 학습된 모델에서 직접 미세 조정(fine-tuning)하는 방법은 효과적이지만, 큰 컴퓨팅 자원을 요구하며 다른 기본 모델, 텍스트 프롬프트, 구조적 제어와 호환되지 않는다는 단점이 있습니다.본 논문에서는 사전 학습된 텍스트-이미지 확산 모델에 이미지 프롬프트 기능을 부여하기 위한 효과적이고 경량화된 어댑터인 IP-Adapter를 제시합니다. IP-Adapter의 주요 설계 특징은 텍스트 특성과 이미지 특성을 분리하는 분리형 크로스 어텐션 메커니즘입니다. 우리의 방법이 간단함에도 불구하고, 22M 파라미터만으로 완전히 미세 조정된 이미지 프롬프트 모델과 비슷하거나 더 우수한 성능을 낼 수 있습니다. 사전 학습된 확산 모델을 동결시키므로, 제안된 IP-Adapter는 같은 기본 모델에서 미세 조정된 다른 맞춤형 모델뿐만 아니라 기존의 제어 가능한 도구를 사용한 제어 가능한 생성에도 일반화될 수 있습니다.분리형 크로스 어텐션 전략 덕분에, 이미지 프롬프트는 텍스트 프롬프트와 함께 잘 작동하여 다중모달 이미지 생성을 실현할 수 있습니다. 본 연구의 웹 페이지는 \url{https://ip-adapter.github.io}에서 확인할 수 있습니다.