HyperAI

برنامج التعرف على الكلام Parakeet-tdt-0.6b-v2

1. مقدمة البرنامج التعليمي

نجوم جيثب

يستخدم هذا البرنامج التعليمي مورد حوسبة RTX 4090 واحدًا، ويدعم النموذج التعرف على الكلام باللغة الإنجليزية فقط.

Parakeet-tdt-0.6b-v2 هو نموذج التعرف التلقائي على الكلام (ASR) عالي الأداء مع 600 مليون معلمة مفتوح المصدر بواسطة NVIDIA في مايو 2025. وهو أحدث إصدار من سلسلة Parakeet. يعتمد النموذج على بنية مشفر FastConformer وفك تشفير TDT، وهو قادر على نسخ ما يصل إلى 24 دقيقة من مقاطع الصوت الإنجليزية بكفاءة في المرة الواحدة. يركز هذا النموذج على مهام نسخ الكلام باللغة الإنجليزية عالية الدقة ومنخفضة الكمون وهو مناسب لسيناريوهات تحويل الكلام إلى نص باللغة الإنجليزية في الوقت الفعلي (مثل محادثات خدمة العملاء وسجلات الاجتماعات والمساعدين الصوتيين وما إلى ذلك). نتائج الورقة ذات الصلة هيمتوافق سريع مع اهتمام قابل للتطوير خطيًا للتعرف على الكلام بكفاءة".

2. خطوات التشغيل

1. ابدأ تشغيل الحاوية

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. استخدم العرض التوضيحي

عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت بشكل مباشر.

بالإضافة إلى دعم تحميل ملفات الصوت، يدعم هذا البرنامج التعليمي أيضًا إدخال الصوت.

يمكن حفظ نتائج التعرف كملفات CSV

3. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

دعم المشاريع

شكرًا لمستخدم Github سوبر يانغ  نشر هذا البرنامج التعليمي.