التاريخ

منذ 6 أشهر

المؤسسة

الوسوم

التعرف على الصوت

RTX 5090

الترخيص

Apache 2.0

GitHub

zai-org/GLM-ASR814

1. مقدمة البرنامج التعليمي

GLM-ASR-Nano-2512 هو نموذج مفتوح المصدر للتعرف على الكلام، أطلقته شركة ZhipuAI في ديسمبر 2024، ويضم 1.5 مليار مُعامل. صُمم هذا النموذج خصيصًا للتعامل مع سيناريوهات العالم الحقيقي المعقدة، ويتميز بحجمه الصغير مع تفوقه على OpenAI Whisper V3 في العديد من اختبارات الأداء. يدعم هذا النموذج اللغتين الصينية والإنجليزية القياسيتين، ويُظهر كفاءة عالية في التعرف على اللهجات والأصوات الهامسة/المنخفضة. وباعتباره نموذجًا عالي الأداء وسهل الاستخدام على الحوسبة الطرفية، فإنه يستخدم استراتيجيات تدريب متقدمة لالتقاط تفاصيل الكلام بدقة متناهية حتى في الأصوات المنخفضة جدًا، مما يسد الثغرات في نماذج التعرف التلقائي على الكلام التقليدية فيما يتعلق باللهجات والبيئات الصوتية المعقدة. على سبيل المثال، في تسجيلات الاجتماعات الصاخبة أو المحادثات الهامسة التي تتطلب الحفاظ على الخصوصية، يُقدم GLM-ASR-Nano نتائج نسخ دقيقة للغاية.

يستخدم هذا البرنامج التعليمي Grado + Transformers لنشر GLM-ASR-Nano-2512 كعرض توضيحي، باستخدام موارد الحوسبة التالية: بطاقة رسومات RTX 5090 واحدة .

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. بمجرد دخولك إلى صفحة الويب، يمكنك تحميل ملفات صوتية أو تسجيلات صوتية للتعرف عليها!

إذا تم عرضها بوابة سيئة هذا يعني أن النموذج قيد التحميل. يرجى الانتظار لمدة دقيقتين إلى ثلاث دقائق ثم تحديث الصفحة.

عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت مباشرة ويجب تنزيله قبل التشغيل.

معلومات الاستشهاد

@misc{glm-asr-nano-2512,
      title={GLM-ASR-Nano: A Robust and Compact Speech Recognition Model}, 
      author={ZhipuAI},
      year={2024},
      publisher={Hugging Face},
      url={[https://huggingface.co/zai-org/GLM-ASR-Nano-2512](https://huggingface.co/zai-org/GLM-ASR-Nano-2512)}
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

دفاتر ملاحظات ذات صلة

VibeVoice-ASR: عرض توضيحي متعدد الوظائف للتعرف على الكلام من البداية إلى النهاية

منذ 4 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

شغّل هذا الـNotebook ناقش على Discord

التاريخ

منذ 6 أشهر

المؤسسة

الوسوم

التعرف على الصوت

RTX 5090

الترخيص

Apache 2.0

GitHub

zai-org/GLM-ASR814

1. مقدمة البرنامج التعليمي

يستخدم هذا البرنامج التعليمي Grado + Transformers لنشر GLM-ASR-Nano-2512 كعرض توضيحي، باستخدام موارد الحوسبة التالية: بطاقة رسومات RTX 5090 واحدة .

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. بمجرد دخولك إلى صفحة الويب، يمكنك تحميل ملفات صوتية أو تسجيلات صوتية للتعرف عليها!

إذا تم عرضها بوابة سيئة هذا يعني أن النموذج قيد التحميل. يرجى الانتظار لمدة دقيقتين إلى ثلاث دقائق ثم تحديث الصفحة.

عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت مباشرة ويجب تنزيله قبل التشغيل.

معلومات الاستشهاد

@misc{glm-asr-nano-2512,
      title={GLM-ASR-Nano: A Robust and Compact Speech Recognition Model}, 
      author={ZhipuAI},
      year={2024},
      publisher={Hugging Face},
      url={[https://huggingface.co/zai-org/GLM-ASR-Nano-2512](https://huggingface.co/zai-org/GLM-ASR-Nano-2512)}
}

دفاتر ملاحظات ذات صلة

نشر MOSS-TTS-Nano باستخدام Free-CPU

منذ 2 أشهر

نشر وحدة المعالجة المركزية لـ GLM-4-9B-chat-GGUF

منذ 4 أشهر

Qwen3-ASR-1.7B: نظام التعرف على الكلام من الجيل الجديد

منذ 4 أشهر

VibeVoice-ASR: عرض توضيحي متعدد الوظائف للتعرف على الكلام من البداية إلى النهاية

منذ 4 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

التعرف الذكي على الكلام GLM-ASR-Nano

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. بمجرد دخولك إلى صفحة الويب، يمكنك تحميل ملفات صوتية أو تسجيلات صوتية للتعرف عليها!

معلومات الاستشهاد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التعرف الذكي على الكلام GLM-ASR-Nano

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. بمجرد دخولك إلى صفحة الويب، يمكنك تحميل ملفات صوتية أو تسجيلات صوتية للتعرف عليها!

معلومات الاستشهاد

دفاتر ملاحظات ذات صلة

نشر MOSS-TTS-Nano باستخدام Free-CPU

نشر وحدة المعالجة المركزية لـ GLM-4-9B-chat-GGUF

Qwen3-ASR-1.7B: نظام التعرف على الكلام من الجيل الجديد

VibeVoice-ASR: عرض توضيحي متعدد الوظائف للتعرف على الكلام من البداية إلى النهاية

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التعرف الذكي على الكلام GLM-ASR-Nano

1. مقدمة البرنامج التعليمي

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. بمجرد دخولك إلى صفحة الويب، يمكنك تحميل ملفات صوتية أو تسجيلات صوتية للتعرف عليها!

معلومات الاستشهاد

دفاتر ملاحظات ذات صلة

نشر MOSS-TTS-Nano باستخدام Free-CPU

نشر وحدة المعالجة المركزية لـ GLM-4-9B-chat-GGUF

Qwen3-ASR-1.7B: نظام التعرف على الكلام من الجيل الجديد

VibeVoice-ASR: عرض توضيحي متعدد الوظائف للتعرف على الكلام من البداية إلى النهاية

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

دفاتر ملاحظات ذات صلة

نشر MOSS-TTS-Nano باستخدام Free-CPU

نشر وحدة المعالجة المركزية لـ GLM-4-9B-chat-GGUF

Qwen3-ASR-1.7B: نظام التعرف على الكلام من الجيل الجديد

VibeVoice-ASR: عرض توضيحي متعدد الوظائف للتعرف على الكلام من البداية إلى النهاية

دفاتر ملاحظات ذات صلة

نشر MOSS-TTS-Nano باستخدام Free-CPU

نشر وحدة المعالجة المركزية لـ GLM-4-9B-chat-GGUF

Qwen3-ASR-1.7B: نظام التعرف على الكلام من الجيل الجديد

VibeVoice-ASR: عرض توضيحي متعدد الوظائف للتعرف على الكلام من البداية إلى النهاية