2. خطوات التشغيل

1. ابدأ تشغيل الحاوية

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. استخدم العرض التوضيحي

عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت بشكل مباشر.

بالإضافة إلى دعم تحميل ملفات الصوت، يدعم هذا البرنامج التعليمي أيضًا إدخال الصوت.

يمكن حفظ نتائج التعرف كملفات CSV

3. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

HyperAI

تشغيل هذا Notebook

التاريخ

منذ 9 أشهر

الحجم

836.41 MB

الوسوم

NVIDIA

التعرف على الصوت

الترخيص

CC BY 4.0

GitHub

NVIDIA/NeMo

رابط الورقة البحثية

2305.05084

1. مقدمة البرنامج التعليمي

يستخدم هذا البرنامج التعليمي مورد حوسبة RTX 4090 واحدًا، ويدعم النموذج التعرف على الكلام باللغة الإنجليزية فقط.

يُعدّ Parakeet-tdt-0.6b-v2 نموذجًا عالي الأداء للتعرف التلقائي على الكلام (ASR) يحتوي على 600 مليون مُعامل، وقد طرحته NVIDIA كمصدر مفتوح في مايو 2025. وهو أحدث إصدار في سلسلة Parakeet. يعتمد هذا النموذج على بنية مُشفّر FastConformer ومُفكّك TDT، ويُمكنه تحويل مقاطع صوتية إنجليزية تصل مدتها إلى 24 دقيقة بكفاءة عالية في عملية واحدة. يُركّز النموذج على مهام تحويل الكلام الإنجليزي إلى نص بدقة عالية وزمن استجابة منخفض، وهو مناسب لسيناريوهات تحويل الكلام الإنجليزي إلى نص في الوقت الفعلي (مثل حوارات خدمة العملاء، ومحاضر الاجتماعات، والمساعدين الصوتيين). تتوفر أوراق بحثية ذات صلة. متوافق سريع مع اهتمام قابل للتطوير خطيًا للتعرف على الكلام بكفاءة .

2. خطوات التشغيل

1. ابدأ تشغيل الحاوية

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. استخدم العرض التوضيحي

عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت بشكل مباشر.

بالإضافة إلى دعم تحميل ملفات الصوت، يدعم هذا البرنامج التعليمي أيضًا إدخال الصوت.

يمكن حفظ نتائج التعرف كملفات CSV

3. المناقشة

دعم المشاريع

شكرًا لمستخدم Github سوبر يانغ نشر هذا البرنامج التعليمي.

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

التعرف الذكي على الكلام GLM-ASR-Nano

منذ 2 أشهر

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

منذ 3 أشهر

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

منذ 3 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp