Command Palette
Search for a command to run...
MiMo-Audio-7B-Instruct: نموذج صوتي شامل مفتوح المصدر من Xiaomi
An error occurred in the Server Components render. The specific message is omitted in production builds to avoid leaking sensitive details. A digest property is included on this error instance which may provide additional details about the nature of the error.
Failed to load notebook details1. مقدمة البرنامج التعليمي

MiMo-Audio هو نموذج متكامل لمعالجة الكلام، أطلقته شركة Xiaomi في سبتمبر 2025. وقد تم توسيع بيانات التدريب المسبق الخاصة به لتتجاوز 100 مليون ساعة، ولاحظ الباحثون قدراته على التعلم باستخدام عدد قليل من الأمثلة في مختلف مهام الصوت. قيّم الفريق هذه القدرات بشكل منهجي، ووجد أن MiMo-Audio-7B-Base حقق أداءً متميزًا في كل من معايير ذكاء الكلام وفهم الصوت لنماذج المصادر المفتوحة. بالإضافة إلى المقاييس القياسية، يمكن للنموذج التعميم على مهام لم تُغطَّ في بيانات التدريب، مثل تحويل الكلام، ونقل الأنماط، وتحرير الكلام. علاوة على ذلك، يمتلك MiMo-Audio-7B-Base قدرات قوية في استكمال الكلام، مما يُنتج محتوى واقعيًا للغاية لبرامج الحوار، والتلاوة، والبث المباشر، والمناظرات. في مرحلة ما بعد التدريب، جمع الباحثون مجموعة متنوعة من مجموعات بيانات ضبط التعليمات، وأدخلوا آليات التفكير في فهم الصوت وتوليده. حقق نظام MiMo-Audio-7B-Instruct الناتج أداءً متميزًا في معايير المصادر المفتوحة لفهم الصوت، والحوار المنطوق، وتحويل التعليمات إلى نص، وفي بعض الحالات، اقترب من أداء النماذج المغلقة المصدر أو تفوق عليها. وتشمل نتائج البحث ذات الصلة ما يلي: تقرير فني صوتي من MiMo .
يستخدم هذا البرنامج التعليمي بطاقة رسوميات RTX 5090 واحدة كمورد حوسبة.
2. أمثلة على التأثيرات
1. 🔊 فهم الصوت

2. 🎵 توليد الصوت وتحويل النص إلى كلام

٣. 🎤 الحوار الشفهي

4. 💬 حوار S2T

5. 📝 حوار من نص إلى نص

3. خطوات التشغيل
1. ابدأ تشغيل الحاوية

2. تهيئة معلمات الوزن
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.
عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت مباشرة ويجب تنزيله قبل التشغيل.

3. فهم الصوت

4. توليد الصوت

5. المحادثة الصوتية

6. محادثة صوتية إلى نصية

7. محادثة نصية إلى نصية

معلومات الاستشهاد
@misc{coreteam2025mimoaudio,
title={MiMo-Audio: Audio Language Models are Few-Shot Learners},
author={LLM-Core-Team Xiaomi},
year={2025},
url={https://github.com/XiaomiMiMo/MiMo-Audio},
}
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.