Command Palette
Search for a command to run...
التعرف الذكي على الكلام GLM-ASR-Nano
1. مقدمة البرنامج التعليمي

GLM-ASR-Nano-2512 هو نموذج مفتوح المصدر للتعرف على الكلام، أطلقته شركة ZhipuAI في ديسمبر 2024، ويضم 1.5 مليار مُعامل. صُمم هذا النموذج خصيصًا للتعامل مع سيناريوهات العالم الحقيقي المعقدة، ويتميز بحجمه الصغير مع تفوقه على OpenAI Whisper V3 في العديد من اختبارات الأداء. يدعم هذا النموذج اللغتين الصينية والإنجليزية القياسيتين، ويُظهر كفاءة عالية في التعرف على اللهجات والأصوات الهامسة/المنخفضة. وباعتباره نموذجًا عالي الأداء وسهل الاستخدام على الحوسبة الطرفية، فإنه يستخدم استراتيجيات تدريب متقدمة لالتقاط تفاصيل الكلام بدقة متناهية حتى في الأصوات المنخفضة جدًا، مما يسد الثغرات في نماذج التعرف التلقائي على الكلام التقليدية فيما يتعلق باللهجات والبيئات الصوتية المعقدة. على سبيل المثال، في تسجيلات الاجتماعات الصاخبة أو المحادثات الهامسة التي تتطلب الحفاظ على الخصوصية، يُقدم GLM-ASR-Nano نتائج نسخ دقيقة للغاية.
يستخدم هذا البرنامج التعليمي Grado + Transformers لنشر GLM-ASR-Nano-2512 كعرض توضيحي، باستخدام موارد الحوسبة التالية: بطاقة رسومات RTX 5090 واحدة .
2. أمثلة المشاريع

3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. بمجرد دخولك إلى صفحة الويب، يمكنك تحميل ملفات صوتية أو تسجيلات صوتية للتعرف عليها!
إذا تم عرضها بوابة سيئة هذا يعني أن النموذج قيد التحميل. يرجى الانتظار لمدة دقيقتين إلى ثلاث دقائق ثم تحديث الصفحة.
عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت مباشرة ويجب تنزيله قبل التشغيل.

معلومات الاستشهاد
@misc{glm-asr-nano-2512,
title={GLM-ASR-Nano: A Robust and Compact Speech Recognition Model},
author={ZhipuAI},
year={2024},
publisher={Hugging Face},
url={[https://huggingface.co/zai-org/GLM-ASR-Nano-2512](https://huggingface.co/zai-org/GLM-ASR-Nano-2512)}
}بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.