يستخدم هذا البرنامج التعليمي مورد حوسبة RTX 4090 واحدًا، ويدعم النموذج التعرف على الكلام باللغة الإنجليزية فقط.
يُعدّ Parakeet-tdt-0.6b-v2 نموذجًا عالي الأداء للتعرف التلقائي على الكلام (ASR) يحتوي على 600 مليون مُعامل، وقد طرحته NVIDIA كمصدر مفتوح في مايو 2025. وهو أحدث إصدار في سلسلة Parakeet. يعتمد هذا النموذج على بنية مُشفّر FastConformer ومُفكّك TDT، ويُمكنه تحويل مقاطع صوتية إنجليزية تصل مدتها إلى 24 دقيقة بكفاءة عالية في عملية واحدة. يُركّز النموذج على مهام تحويل الكلام الإنجليزي إلى نص بدقة عالية وزمن استجابة منخفض، وهو مناسب لسيناريوهات تحويل الكلام الإنجليزي إلى نص في الوقت الفعلي (مثل حوارات خدمة العملاء، ومحاضر الاجتماعات، والمساعدين الصوتيين). تتوفر أوراق بحثية ذات صلة. متوافق سريع مع اهتمام قابل للتطوير خطيًا للتعرف على الكلام بكفاءة .
2. خطوات التشغيل
1. ابدأ تشغيل الحاوية
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.
2. استخدم العرض التوضيحي
عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت بشكل مباشر.
بالإضافة إلى دعم تحميل ملفات الصوت، يدعم هذا البرنامج التعليمي أيضًا إدخال الصوت.
يمكن حفظ نتائج التعرف كملفات CSV
3. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓
دعم المشاريع
شكرًا لمستخدم Github سوبر يانغ نشر هذا البرنامج التعليمي.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.
يستخدم هذا البرنامج التعليمي مورد حوسبة RTX 4090 واحدًا، ويدعم النموذج التعرف على الكلام باللغة الإنجليزية فقط.
يُعدّ Parakeet-tdt-0.6b-v2 نموذجًا عالي الأداء للتعرف التلقائي على الكلام (ASR) يحتوي على 600 مليون مُعامل، وقد طرحته NVIDIA كمصدر مفتوح في مايو 2025. وهو أحدث إصدار في سلسلة Parakeet. يعتمد هذا النموذج على بنية مُشفّر FastConformer ومُفكّك TDT، ويُمكنه تحويل مقاطع صوتية إنجليزية تصل مدتها إلى 24 دقيقة بكفاءة عالية في عملية واحدة. يُركّز النموذج على مهام تحويل الكلام الإنجليزي إلى نص بدقة عالية وزمن استجابة منخفض، وهو مناسب لسيناريوهات تحويل الكلام الإنجليزي إلى نص في الوقت الفعلي (مثل حوارات خدمة العملاء، ومحاضر الاجتماعات، والمساعدين الصوتيين). تتوفر أوراق بحثية ذات صلة. متوافق سريع مع اهتمام قابل للتطوير خطيًا للتعرف على الكلام بكفاءة .
2. خطوات التشغيل
1. ابدأ تشغيل الحاوية
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.
2. استخدم العرض التوضيحي
عند استخدام متصفح Safari، قد لا يتم تشغيل الصوت بشكل مباشر.
بالإضافة إلى دعم تحميل ملفات الصوت، يدعم هذا البرنامج التعليمي أيضًا إدخال الصوت.
يمكن حفظ نتائج التعرف كملفات CSV
3. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓
دعم المشاريع
شكرًا لمستخدم Github سوبر يانغ نشر هذا البرنامج التعليمي.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.