HyperAIHyperAI

Command Palette

Search for a command to run...

MiMo-Audio-7B-Instruct: Xiaomi의 오픈 소스 엔드투엔드 음성 모델

날짜

7달 전

논문 URL

github.com

라이선스

Apache 2.0

GPU 컴퓨팅 에어드롭

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)
지금 사용하기

1. 튜토리얼 소개

짓다

MiMo-Audio는 샤오미가 2025년 9월에 출시한 엔드투엔드 음성 모델입니다. 사전 학습 데이터는 1억 시간 이상으로 확장되었으며, 연구진은 다양한 오디오 작업에서 소량 학습(few-shot learning) 능력을 확인했습니다. 연구팀은 이러한 능력을 체계적으로 평가한 결과, MiMo-Audio-7B-Base가 오픈 소스 모델 음성 지능 및 오디오 이해 벤치마크 모두에서 최첨단(SOTA) 성능을 달성했음을 발견했습니다. 이 모델은 표준 지표 외에도 음성 변환, 스타일 변환, 음성 편집 등 학습 데이터에 포함되지 않은 작업까지 일반화할 수 있습니다. 또한 MiMo-Audio-7B-Base는 강력한 음성 연속 기능을 통해 토크쇼, 낭독, 라이브 스트리밍, 토론 콘텐츠 등에서 매우 사실적인 음성을 생성할 수 있습니다. 학습 후 단계에서는 연구진이 다양한 명령어 세트를 활용하여 미세 조정 코퍼스를 구축하고, 사고 메커니즘을 오디오 이해 및 생성에 도입했습니다. 그 결과 개발된 MiMo-Audio-7B-Instruct는 오디오 이해, 음성 대화 및 지시문 음성 인식(TTS) 분야의 오픈 소스 벤치마크에서 최첨단 성능을 달성했으며, 일부 시나리오에서는 클로즈드 소스 모델에 근접하거나 이를 능가했습니다. 관련 연구 결과는 다음과 같습니다. MiMo-오디오-기술-보고서 .

이 튜토리얼에서는 컴퓨팅 리소스로 단일 RTX 5090 그래픽 카드를 사용합니다.

2. 효과 예시

1. 🔊 오디오 이해

2. 🎵 오디오 생성 텍스트 음성 변환

3. 🎤 대화

4. 💬 시즌 2 대화

5. 📝 텍스트-텍스트 대화

3. 작업 단계

1. 컨테이너를 시작하세요

2. 가중치 매개변수 초기화

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생하기 전에 다운로드해야 합니다.

3. 오디오 이해

4. 오디오 생성

5. 음성 대화

6. 음성-텍스트 대화

7. 텍스트-텍스트 대화

인용 정보

@misc{coreteam2025mimoaudio,
      title={MiMo-Audio: Audio Language Models are Few-Shot Learners}, 
      author={LLM-Core-Team Xiaomi},
      year={2025},
      url={https://github.com/XiaomiMiMo/MiMo-Audio}, 
}

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp