KV-Edit 프로젝트는 2025년 2월 25일 청화대학교 인공지능학원에서 시작되었습니다. 이 모델은 학습이 필요 없는 이미지 편집 방법으로, 원본 이미지와 편집된 이미지의 배경 일관성을 엄격하게 유지할 수 있으며, 객체 추가, 제거, 교체 등 다양한 편집 작업에서 인상적인 성능을 달성했습니다. KV-Edit의 핵심은 KV 캐시를 사용하여 배경 태그의 키-값 쌍을 저장하는 것입니다. 이미지 반전 과정에서 이러한 키-값 쌍은 보존되고, 노이즈 제거 단계에서는 전경 콘텐츠와 결합되어 배경과 완벽하게 통합되는 새로운 콘텐츠를 생성합니다. 이 접근 방식은 복잡한 메커니즘이나 값비싼 교육의 필요성을 없애는 동시에 배경의 일관성과 전반적인 이미지 품질을 보장합니다. 관련 논문 결과는 다음과 같습니다.KV-Edit: 정확한 배경 보존을 위한 훈련 없는 이미지 편집".
이 튜토리얼에서는 단일 카드 A6000에 대한 리소스를 사용합니다.
👉 이 프로젝트는 두 가지 모델을 제공합니다.
블랙포레스트랩스/FLUX.1-dev: FLUX.1[dev]은 텍스트 설명으로부터 이미지를 생성할 수 있는 120억 개의 매개변수를 갖는 정류 스트림 변환기입니다.
블랙포레스트랩스/FLUX.1-슈넬: FLUX.1[schnell]은 텍스트 설명으로부터 이미지를 생성할 수 있는 120억 개의 매개변수를 갖는 정류 흐름 변환기입니다.
프로젝트 예시
2. 작업 단계
1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 1~2분 정도 기다리신 후 페이지를 새로고침해 주세요.
2. 웹페이지에 접속 후 모델과 대화를 시작할 수 있습니다.
단계: 1️⃣ 편집하고 싶은 사진을 업로드하세요. 2️⃣ 소스 큐 단어를 입력하고 "반전" 버튼을 클릭하여 이미지 반전을 수행합니다. 3️⃣ 브러시 도구를 사용하여 마스크 영역을 칠합니다. 4️⃣ 타겟 큐를 입력하고 하이퍼파라미터를 조정하세요. 5️⃣ "편집" 버튼을 클릭하여 편집된 이미지를 생성하세요.
❗️중요 사용 팁:
이미지는 100KB를 초과할 수 없습니다.
반전 기반 버전을 사용하는 경우 각 이미지를 한 번만 반전시키고, 여러 번 편집을 시도할 때마다 3~5단계를 반복하면 됩니다!
re_init은 반전된 결과 대신 노이즈가 포함된 이미지 혼합을 사용하여 새로운 콘텐츠를 생성하는 것을 의미합니다.
attn_mask 옵션을 선택하면 반전을 수행하기 전에 마스크를 입력해야 합니다.
마스크가 크고 건너뛰기 단계나 re_init이 적게 사용되는 경우 마스크된 영역의 내용이 배경과 불연속적일 수 있습니다. attn_scale을 늘려보세요.
inverse는 반전을 의미하고, edit는 배경을 제거하기 위해 편집하는 것을 의미합니다.
건너뛰기 단계 수는 건너뛰기 단계의 수를 제어합니다.
역전 안내 역전 안내 매개변수입니다.
소음 제거 안내 소음 감소 안내 매개변수입니다.
교류 및 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓
인용 정보
Github 사용자에게 감사드립니다 장준창 이 튜토리얼을 배포하기 위한 프로젝트 참조 정보는 다음과 같습니다.
@article{zhu2025kv,
title={KV-Edit: Training-Free Image Editing for Precise Background Preservation},
author={Zhu, Tianrui and Zhang, Shiyi and Shao, Jiawei and Tang, Yansong},
journal={arXiv preprint arXiv:2502.17363},
year={2025}
}