Command Palette
Search for a command to run...
MiMo-Audio-7B-Instruct: Xiaomi의 오픈 소스 엔드투엔드 음성 모델
1. 튜토리얼 소개

MiMo-Audio는 샤오미가 2025년 9월에 출시한 엔드투엔드 음성 모델입니다. 사전 훈련 데이터는 1억 시간 이상으로 확장되었으며, 연구진은 다양한 오디오 작업에서 퓨샷 학습(Few-Shot Learning) 성능을 입증했습니다. 연구팀은 이러한 성능을 체계적으로 평가하여 MiMo-Audio-7B-Base가 음성 지능 및 오디오 이해에 대한 오픈소스 모델 벤치마크에서 최첨단 결과(SOTA)를 달성했음을 확인했습니다. 이 모델은 표준 지표 외에도 음성 변환, 스타일 변환, 음성 편집과 같이 훈련 데이터에 포함되지 않은 작업에도 일반화할 수 있습니다. 또한, MiMo-Audio-7B-Base는 강력한 음성 연속 기능을 갖추고 있어 매우 사실적인 토크쇼, 낭독, 생방송, 토론 등을 생성할 수 있습니다. 훈련 후 단계에서 연구진은 다양한 명령어 미세 조정 코퍼스를 수집하고 오디오 이해 및 생성에 사고 메커니즘을 도입했습니다. 그 결과, MiMo-Audio-7B-Instruct는 오디오 이해 벤치마크, 음성 대화 벤치마크, 그리고 명령 기반 음성 합성(instruct-TTS) 분야에서 오픈 소스 분야에서 최첨단 결과를 달성했으며, 일부 시나리오에서는 폐쇄형 소스 모델에 근접하거나 능가하는 성과를 보였습니다. 관련 논문 결과는 다음과 같습니다.MiMo-오디오-기술-보고서".
이 튜토리얼에서는 컴퓨팅 리소스로 단일 RTX 5090 그래픽 카드를 사용합니다.
2. 효과 예시
1. 🔊 오디오 이해

2. 🎵 오디오 생성 텍스트 음성 변환

3. 🎤 대화

4. 💬 시즌 2 대화

5. 📝 텍스트-텍스트 대화

3. 작업 단계
1. 컨테이너를 시작하세요

2. 가중치 매개변수 초기화
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.
Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생하기 전에 다운로드해야 합니다.

3. 오디오 이해

4. 오디오 생성

5. 음성 대화

6. 음성-텍스트 대화

7. 텍스트-텍스트 대화

인용 정보
@misc{coreteam2025mimoaudio,
title={MiMo-Audio: Audio Language Models are Few-Shot Learners},
author={LLM-Core-Team Xiaomi},
year={2025},
url={https://github.com/XiaomiMiMo/MiMo-Audio},
}