@misc{coreteam2025mimoaudio, title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, author={LLM-Core-Team Xiaomi}, year={2025}, url={https://github.com/XiaomiMiMo/MiMo-Audio}, }

날짜

9달 전

태그

논문 URL

라이선스

Apache 2.0

GitHub

XiaomiMiMo/MiMo-Audio1.1k

1. 튜토리얼 소개

MiMo-Audio는 샤오미가 2025년 9월에 출시한 엔드투엔드 음성 모델입니다. 사전 학습 데이터는 1억 시간 이상으로 확장되었으며, 연구진은 다양한 오디오 작업에서 소량 학습(few-shot learning) 능력을 확인했습니다. 연구팀은 이러한 능력을 체계적으로 평가한 결과, MiMo-Audio-7B-Base가 오픈 소스 모델 음성 지능 및 오디오 이해 벤치마크 모두에서 최첨단(SOTA) 성능을 달성했음을 발견했습니다. 이 모델은 표준 지표 외에도 음성 변환, 스타일 변환, 음성 편집 등 학습 데이터에 포함되지 않은 작업까지 일반화할 수 있습니다. 또한 MiMo-Audio-7B-Base는 강력한 음성 연속 기능을 통해 토크쇼, 낭독, 라이브 스트리밍, 토론 콘텐츠 등에서 매우 사실적인 음성을 생성할 수 있습니다. 학습 후 단계에서는 연구진이 다양한 명령어 세트를 활용하여 미세 조정 코퍼스를 구축하고, 사고 메커니즘을 오디오 이해 및 생성에 도입했습니다. 그 결과 개발된 MiMo-Audio-7B-Instruct는 오디오 이해, 음성 대화 및 지시문 음성 인식(TTS) 분야의 오픈 소스 벤치마크에서 최첨단 성능을 달성했으며, 일부 시나리오에서는 클로즈드 소스 모델에 근접하거나 이를 능가했습니다. 관련 연구 결과는 다음과 같습니다. MiMo-오디오-기술-보고서 .

이 튜토리얼에서는 컴퓨팅 리소스로 단일 RTX 5090 그래픽 카드를 사용합니다.

2. 효과 예시

1. 🔊 오디오 이해

2. 🎵 오디오 생성 텍스트 음성 변환

3. 🎤 대화

4. 💬 시즌 2 대화

5. 📝 텍스트-텍스트 대화

3. 작업 단계

1. 컨테이너를 시작하세요

2. 가중치 매개변수 초기화

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생하기 전에 다운로드해야 합니다.

3. 오디오 이해

4. 오디오 생성

5. 음성 대화

6. 음성-텍스트 대화

7. 텍스트-텍스트 대화

인용 정보

@misc{coreteam2025mimoaudio,
      title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      url={https://github.com/XiaomiMiMo/MiMo-Audio}, 
}

이 노트북은 커뮤니티 사용자가 기여한 것으로 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

Notebook 개요

수준

입문

주제

LLM 엔지니어링 생성형 AI 오디오

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

@misc{coreteam2025mimoaudio, title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, author={LLM-Core-Team Xiaomi}, year={2025}, url={https://github.com/XiaomiMiMo/MiMo-Audio}, }

Command Palette

MiMo-Audio-7B-Instruct: Xiaomi의 오픈 소스 엔드투엔드 음성 모델

1. 튜토리얼 소개

2. 효과 예시

1. 🔊 오디오 이해

2. 🎵 오디오 생성 텍스트 음성 변환

3. 🎤 대화

4. 💬 시즌 2 대화

5. 📝 텍스트-텍스트 대화

3. 작업 단계

1. 컨테이너를 시작하세요

2. 가중치 매개변수 초기화

3. 오디오 이해

4. 오디오 생성

5. 음성 대화

6. 음성-텍스트 대화

7. 텍스트-텍스트 대화

인용 정보

Notebook 개요

AI로 AI 구축

HyperAI Newsletters

Command Palette

MiMo-Audio-7B-Instruct: Xiaomi의 오픈 소스 엔드투엔드 음성 모델

1. 튜토리얼 소개

2. 효과 예시

1. 🔊 오디오 이해

2. 🎵 오디오 생성 텍스트 음성 변환

3. 🎤 대화

4. 💬 시즌 2 대화

5. 📝 텍스트-텍스트 대화

3. 작업 단계

1. 컨테이너를 시작하세요

2. 가중치 매개변수 초기화

3. 오디오 이해

4. 오디오 생성

5. 음성 대화

6. 음성-텍스트 대화

7. 텍스트-텍스트 대화

인용 정보

Notebook 개요

관련 노트북

Fish Audio S2-Pro 자연어 제어 음성 감정 표현

Qwen2.5-3B-Instruct-GGUF의 CPU 배포

CPU 배포 DeepSeek-Coder-V2-Lite-Instruct-GGUF

Phi-4-mini-instruct-GGUF의 CPU 배포

CPU 배포 Qwen2.5-14B-Instruct-GGUF

Llama-3.2-3B-Instruct-GGUF의 CPU 배포

AI로 AI 구축

HyperAI Newsletters

Command Palette

MiMo-Audio-7B-Instruct: Xiaomi의 오픈 소스 엔드투엔드 음성 모델

1. 튜토리얼 소개

2. 효과 예시

1. 🔊 오디오 이해

2. 🎵 오디오 생성 텍스트 음성 변환

3. 🎤 대화

4. 💬 시즌 2 대화

5. 📝 텍스트-텍스트 대화

3. 작업 단계

1. 컨테이너를 시작하세요

2. 가중치 매개변수 초기화

3. 오디오 이해

4. 오디오 생성

5. 음성 대화

6. 음성-텍스트 대화

7. 텍스트-텍스트 대화

인용 정보

Notebook 개요

관련 노트북

Fish Audio S2-Pro 자연어 제어 음성 감정 표현

Qwen2.5-3B-Instruct-GGUF의 CPU 배포

CPU 배포 DeepSeek-Coder-V2-Lite-Instruct-GGUF

Phi-4-mini-instruct-GGUF의 CPU 배포

CPU 배포 Qwen2.5-14B-Instruct-GGUF

Llama-3.2-3B-Instruct-GGUF의 CPU 배포

AI로 AI 구축

HyperAI Newsletters

관련 노트북

Fish Audio S2-Pro 자연어 제어 음성 감정 표현

Qwen2.5-3B-Instruct-GGUF의 CPU 배포