أداة صوتية مفتوحة المصدر للاستجابة الفورية في الأجهزة الحافة تُحدث معايير جديدة في التعرف على الكلام
Moonshine AI أطلقت إطار عمل مفتوح المصدر يُسمى Moonshine Voice، مُصمم لتمكين تطوير تطبيقات صوتية حية بسرعة ودقة عالية على الأجهزة المحدودة الموارد مثل الهواتف، أجهزة Raspberry Pi، والأجهزة القابلة للارتداء. يتميز النظام بتشغيله بالكامل على الجهاز (on-device)، مما يضمن الخصوصية، ويُلغِي الحاجة إلى حسابات أو بطاقات ائتمان أو مفاتيح API. يركز الإطار على تقليل التأخير (latency) في التعرف على الكلام، حيث يُعالج النص أثناء التحدث، ما يُحسّن تجربة المستخدم بشكل كبير، خاصة في التطبيقات التي تتطلب استجابة فورية. تم تطوير النماذج الأساسية لـ Moonshine من الصفر، بفضل بيانات تدريب مجمعة بشكل واسع، مما يُتيح دقة أعلى من نموذج Whisper Large V3 في بعض السيناريوهات، مع تقليل الحجم إلى نماذج بحجم 26 ميجابايت فقط. تدعم النماذج عدة لغات، منها الإنجليزية، الإسبانية، الصينية، اليابانية، الكورية، الفيتنامية، الأوكرانية والعربية، مع نماذج مخصصة لكل لغة لتحسين الدقة. تتميز النماذج بقدرتها على التعامل مع نوافذ صوتية مرنة (بدون تقطيع ثابت)، وتخزين الحسابات السابقة (caching) أثناء التدفق، ما يقلل التأخير بنسبة تصل إلى 5 أضعاف مقارنة بـ Whisper. يقدم الإطار واجهة برمجة تطبيقات (API) عالية المستوى تُبسط بناء تطبيقات صوتية، مع دعم مدمج لمهام مثل الترجمة، تحديد المتكلم (التمييز الصوتي)، وتحديد النية (الإشارات الصوتية). يدعم الإطار منصات متعددة: Python، iOS، Android، macOS، Linux، Windows، وRaspberry Pi، مع دعم موحد عبر مكتبة C++ قابلة للنشر، مدعومة بـ ONNX Runtime لضمان الأداء العالي عبر الأنظمة. يُمكن للمطورين بدء العمل بسهولة عبر مكتبات مسبقة التثبيت (مثل pip، Maven، Swift Package Manager)، مع أمثلة تطبيقية متاحة لكل منصة. يُمكن أيضًا تحميل النماذج عبر سطر الأوامر، مع دعم لتسجيل صوتي للتحقق من جودة الإدخال، وتجهيزات لاستكشاف الأخطاء. في المقارنة مع Whisper، يتفوق Moonshine في التطبيقات الحية بفضل التأخير المنخفض، ودعم التحديثات التدفقية، ودقة أعلى في لغات محددة، رغم أن Whisper يظل خيارًا أفضل في المعالجة الجماعية (batch processing) في السحابة. النموذج المتوسط (Medium Streaming) حقق دقة أعلى من Whisper Large V3 على منصة HuggingFace، مع حجم أصغر بكثير (245 مليون معلمة مقابل 1.5 مليار). الإطار مفتوح المصدر، ويُستخدم ترخيص MIT للنماذج الإنجليزية، وترخيص غير تجاري (Moonshine Community License) للغات الأخرى. يُمكن للمطورين الاستفادة من المكتبة كمكتبة بيضاء، أو التعمق في التفاصيل الداخلية عند الحاجة. الدعم يُقدَّم عبر Discord، مع خيارات دعم مدفوعة للشركات.
