HiDream-E1.1: 명령 기반 이미지 편집기

1. 튜토리얼 소개

짓다

HiDream-E1.1 모델은 HiDream.ai가 2025년 7월에 출시한 오픈소스 이미지 편집 모델입니다. 자체 개발한 Sparse Diffusion Transformer 아키텍처를 기반으로 메가픽셀 해상도를 지원하며 MIT 오픈소스 라이선스를 따릅니다. 이 모델은 "말한 대로 댓글 달기" 방식의 자연어 이미지 편집 기능을 구현하여 사용자가 전문적인 소프트웨어 기술 없이도 간단한 언어 명령을 통해 색상 조정, 스타일 변환, 요소 추가 및 삭제와 같은 복잡한 작업을 수행할 수 있도록 합니다.

이 튜토리얼에서는 듀얼 GPU A6000 컴퓨팅 리소스를 사용하고 중국어, 영어, 프랑스어 및 기타 언어를 지원합니다.

2. 프로젝트 예시

3. 작업 단계

1. 컨테이너를 시작하세요

2. 웹페이지에 접속 후 모델을 이용하실 수 있습니다.

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델 크기가 크므로 페이지를 새로 고치기 전에 약 5~6분 정도 기다려 주세요. 이미지 처리에는 약 5~6분 정도 시간이 소요되므로 잠시 기다려 주세요.

4. 토론

🖌️ 좋은 프로젝트를 발견하시면 배경 메시지로 추천해 주세요! 또한, 튜토리얼 교환 그룹도 개설했습니다. QR 코드를 스캔하여 [SD 튜토리얼]에 댓글을 남겨주시면 그룹에 참여하여 다양한 기술적인 문제를 논의하고 적용 결과를 공유해 드리겠습니다.↓

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@InProceedings{fastvlm2025,
  author = {Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari},
  title = {FastVLM: Efficient Vision Encoding for Vision Language Models},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  month = {June},
  year = {2025},
}