BAGEL-7B-MoT는 ByteDance Seed 팀이 2025년 5월 22일에 공개한 오픈 소스 멀티모달 기본 모델입니다. 텍스트, 이미지, 비디오와 같은 멀티모달 데이터에 대한 이해 및 생성 작업을 통합하는 것을 목표로 합니다. BAGEL은 다중 모드 이해 및 생성, 복잡한 추론 및 편집, 세계 모델링 및 탐색과 같은 다중 모드 작업에서 포괄적인 역량을 보여줍니다. 주요 기능은 시각적 이해, 텍스트-이미지 생성, 이미지 편집 등입니다. 관련 논문 결과는 다음과 같습니다.통합 멀티모달 사전 훈련의 새로운 속성".
이 튜토리얼에서는 듀얼 카드 A6000 컴퓨팅 리소스를 사용하고 테스트를 위해 이미지 생성, Think를 사용한 이미지 생성, 이미지 편집, Think를 사용한 이미지 편집 및 이미지 이해를 제공합니다.
2. 효과 표시
3. 작업 단계
1. 컨테이너를 시작하세요
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.
2. 사용 예
2.1 이미지 생성
구체적인 매개변수:
프롬프트: 여기에 이미지의 내용을 설명하는 텍스트를 입력하면, 모델은 이 텍스트를 기반으로 이미지를 생성합니다.
텍스트 안내 척도: 프롬프트가 출력에 얼마나 영향을 미치는지 제어합니다. 값이 높을수록 영향력이 커집니다.
세대 단계: 단계가 많을수록 품질은 좋아지지만 속도는 느려집니다.
타임스텝 이동: 생성 프로세스를 제어합니다.
결과
2.2 사고를 통한 이미지 생성
구체적인 매개변수:
크리에이티브 프롬프트: 여기에 이미지의 내용을 설명하는 텍스트를 입력하면, 모델이 이 텍스트를 기반으로 이미지를 생성합니다.
최대 사고 토큰: 추론의 깊이를 제어합니다.
텍스트 안내 척도: 프롬프트가 출력에 얼마나 영향을 미치는지 제어합니다. 값이 높을수록 영향력이 커집니다.
세대 단계: 단계가 많을수록 품질은 좋아지지만 속도는 느려집니다.
타임스텝 이동: 생성 프로세스를 제어합니다.
결과
2.3 이미지 편집
구체적인 매개변수:
이미지 업로드: 편집이 필요한 이미지를 업로드하세요.
편집 지침: 편집 지침.
텍스트 안내 척도: 프롬프트가 출력에 얼마나 영향을 미치는지 제어합니다. 값이 높을수록 영향력이 커집니다.
편집 단계: 단계가 많을수록 품질은 좋아지지만 속도는 느려집니다.
진행 상황 편집: 생성 과정을 제어합니다.
이미지 충실도: 이미지 충실도가 높을수록 원본 이미지가 더 많이 보존됩니다.
결과
2.4 Think를 활용한 이미지 편집
구체적인 매개변수:
이미지 업로드: 편집이 필요한 이미지를 업로드하세요.
편집 지침: 편집 지침.
추론 깊이: 추론 깊이.
텍스트 안내 척도: 프롬프트가 출력에 얼마나 영향을 미치는지 제어합니다. 값이 높을수록 영향력이 커집니다.
처리 단계: 단계가 많을수록 품질은 좋아지지만 속도는 느려집니다.
진행 상황 편집: 생성 과정을 제어합니다.
원본 보존: 이미지 충실도가 높을수록 원본이 더 많이 보존됩니다.
결과
2.5 이미지 이해
구체적인 매개변수:
이미지 업로드: 편집이 필요한 이미지를 업로드하세요.
귀하의 질문:귀하의 질문.
결과
4. 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓
인용 정보
이 프로젝트에 대한 인용 정보는 다음과 같습니다.
@article{deng2025bagel,
title = {Emerging Properties in Unified Multimodal Pretraining},
author = {Deng, Chaorui and Zhu, Deyao and Li, Kunchang and Gou, Chenhui and Li, Feng and Wang, Zeyu and Zhong, Shu and Yu, Weihao and Nie, Xiaonan and Song, Ziang and Shi, Guang and Fan, Haoqi},
journal = {arXiv preprint arXiv:2505.14683},
year = {2025}
}