Command Palette
Search for a command to run...
MiMo-Audio-7B-Instruct: Xiaomi의 오픈 소스 엔드투엔드 음성 모델
GPU 컴퓨팅 에어드롭
1. 튜토리얼 소개

MiMo-Audio는 샤오미가 2025년 9월에 출시한 엔드투엔드 음성 모델입니다. 사전 학습 데이터는 1억 시간 이상으로 확장되었으며, 연구진은 다양한 오디오 작업에서 소량 학습(few-shot learning) 능력을 확인했습니다. 연구팀은 이러한 능력을 체계적으로 평가한 결과, MiMo-Audio-7B-Base가 오픈 소스 모델 음성 지능 및 오디오 이해 벤치마크 모두에서 최첨단(SOTA) 성능을 달성했음을 발견했습니다. 이 모델은 표준 지표 외에도 음성 변환, 스타일 변환, 음성 편집 등 학습 데이터에 포함되지 않은 작업까지 일반화할 수 있습니다. 또한 MiMo-Audio-7B-Base는 강력한 음성 연속 기능을 통해 토크쇼, 낭독, 라이브 스트리밍, 토론 콘텐츠 등에서 매우 사실적인 음성을 생성할 수 있습니다. 학습 후 단계에서는 연구진이 다양한 명령어 세트를 활용하여 미세 조정 코퍼스를 구축하고, 사고 메커니즘을 오디오 이해 및 생성에 도입했습니다. 그 결과 개발된 MiMo-Audio-7B-Instruct는 오디오 이해, 음성 대화 및 지시문 음성 인식(TTS) 분야의 오픈 소스 벤치마크에서 최첨단 성능을 달성했으며, 일부 시나리오에서는 클로즈드 소스 모델에 근접하거나 이를 능가했습니다. 관련 연구 결과는 다음과 같습니다. MiMo-오디오-기술-보고서 .
이 튜토리얼에서는 컴퓨팅 리소스로 단일 RTX 5090 그래픽 카드를 사용합니다.
2. 효과 예시
1. 🔊 오디오 이해

2. 🎵 오디오 생성 텍스트 음성 변환

3. 🎤 대화

4. 💬 시즌 2 대화

5. 📝 텍스트-텍스트 대화

3. 작업 단계
1. 컨테이너를 시작하세요

2. 가중치 매개변수 초기화
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.
Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생하기 전에 다운로드해야 합니다.

3. 오디오 이해

4. 오디오 생성

5. 음성 대화

6. 음성-텍스트 대화

7. 텍스트-텍스트 대화

인용 정보
@misc{coreteam2025mimoaudio,
title={MiMo-Audio: Audio Language Models are Few-Shot Learners},
author={LLM-Core-Team Xiaomi},
year={2025},
url={https://github.com/XiaomiMiMo/MiMo-Audio},
}