HyperAI초신경

Step1X-Edit: 이미지 편집 도구

프로젝트 개요

GitHub 스타

이 튜토리얼에서는 리소스로 단일 RTX A6000 카드를 사용합니다.

Step1X-Edit은 StepFun 팀이 2025년 4월 25일에 출시한 최첨단 이미지 편집 모델로, GPT-4o 및 Gemini2 Flash와 같은 폐쇄형 소스 모델과 동등한 성능을 제공하는 것을 목표로 합니다. 구체적으로, Step1X-Edit은 다중 모드 LLM을 사용하여 참조 이미지와 사용자 편집 지침을 처리하고, 잠재 임베딩을 추출하여 확산 이미지 디코더와 통합하여 대상 이미지를 얻습니다. 이 모델은 총 19B(7B MLLM + 12B DiT)의 매개변수 용량을 가지며, 정밀한 의미 분석, 신원 일관성 유지, 고정밀 지역 수준 제어라는 세 가지 핵심 기능을 갖추고 있습니다. 또한 텍스트 대체, 스타일 변환, 소재 변환, 문자 보정 등 11가지 유형의 고빈도 이미지 편집 작업을 지원합니다.

Step1X-Edit은 MLLM과 DiT를 완벽하게 융합한 최초의 오픈소스 시스템으로, 편집 정확도와 이미지 충실도를 크게 향상시킵니다. 최신 이미지 편집 벤치마크인 GEdit-Bench에서 Step1X-Edit은 의미적 일관성, 이미지 품질 및 종합 점수 측면에서 기존 오픈소스 모델보다 앞서 있으며, GPT-4o 및 Gemini 2.0 Flash와 유사한 성능을 보입니다.Step1X-Edit: 일반 이미지 편집을 위한 실용적인 프레임워크".

Step1X-Edit은 자연어 이미지 편집 작업을 위한 다음과 같은 핵심 기능을 갖추고 있습니다.

  • 의미 정밀도 분석: 자연어로 기술된 복잡한 조합 명령어를 지원합니다. 명령어는 템플릿을 필요로 하지 않으며, 여러 단계의 편집 및 다중 작업 요구에 유연하게 대처할 수 있습니다. 또한 이미지 내 텍스트의 인식, 대체 및 재구성을 지원합니다.
  • 신원 일관성 유지: 편집 후 얼굴, 자세 및 신원 특징을 안정적으로 유지할 수 있어 가상 인물, 전자 상거래 모델, 소셜 이미지 등 일관성이 높은 시나리오에 적합합니다.
  • 고정밀 영역 수준 제어: 지정된 영역에서 텍스트, 소재, 색상 등의 방향성 편집을 지원하여 통일된 이미지 스타일을 유지하고 보다 정교한 제어 기능을 제공합니다.

프로젝트 예시

실행 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 1~2분 정도 기다리신 후 페이지를 새로고침해 주세요.

2. 웹 페이지에 접속하면 모델과 상호작용이 가능합니다.

교류 및 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보

Github 사용자에게 감사드립니다 장준창  이 튜토리얼을 배포하기 위한 프로젝트 참조 정보는 다음과 같습니다.

@article{liu2025step1x-edit,
      title={Step1X-Edit: A Practical Framework for General Image Editing}, 
      author={Shiyu Liu and Yucheng Han and Peng Xing and Fukun Yin and Rui Wang and Wei Cheng and Jiaqi Liao and Yingming Wang and Honghao Fu and Chunrui Han and Guopeng Li and Yuang Peng and Quan Sun and Jingwei Wu and Yan Cai and Zheng Ge and Ranchen Ming and Lei Xia and Xianfang Zeng and Yibo Zhu and Binxing Jiao and Xiangyu Zhang and Gang Yu and Daxin Jiang},
      journal={arXiv preprint arXiv:2504.17761},
      year={2025}
}