نموذج التعرف على الكلام مفتوح المصدر من NVIDIA، ParaKeet-tdt-0.6b-v2، يمكنه نسخ ساعة واحدة من الصوت في ثانية واحدة فقط، وتحديد كلام بيتشاي جي بدقة

سواء كان الأمر يتعلق بفهم نوايا المستخدم في الوقت الفعلي في خدمة العملاء الذكية، أو التعرف على الصوت بسرعات التحدث المتعددة واللهجات في سيناريوهات مثل محاضر الاجتماعات وتحرير المقابلات وتوليد الترجمة، فإن احتياجات الاستخدام التي يتم تحديثها باستمرار تفرض متطلبات أكثر صرامة على تقنية التعرف على الكلام. على سبيل المثال، سرعة التعرف، وتكلفة الاستخدام، والدقة والاستقرار في البيئات الصاخبة، وما إلى ذلك.
وفي مواجهة التحديات المذكورة أعلاه،أطلقت NVIDIA مؤخرًا نموذج التعرف على الكلام ParaKeet-tdt-0.6b-v2 مفتوح المصدر.استنادًا إلى بنية FastConformer وتقنية TDT (TransducerDecoderTransformer) التي طورتها NVIDIA ذاتيًا، فإنه يحقق كفاءة استنتاجية قصوى.يستغرق الأمر ثانية واحدة فقط لمعالجة 60 دقيقة من المحتوى الصوتي.ما وراء كل نماذج المصدر المغلق السائدة. علاوة على ذلك، يركز النموذج على مهام نسخ الكلام باللغة الإنجليزية عالية الدقة ومنخفضة الكمون، وهو مناسب لسيناريوهات تحويل الكلام إلى نص باللغة الإنجليزية في الوقت الفعلي، مما يجعل التواصل بين اللغات سهلاً ويجعل سجلات الاجتماعات أكثر سلاسة.
في الوقت الحالي،تم إطلاق النسخة التجريبية من "ParaKeet-tdt-0.6b-v2 Speech Recognition" في قسم "البرنامج التعليمي" على الموقع الرسمي لشركة HyperAI.انقر على الرابط أدناه لتجربة البرنامج التعليمي للنشر بنقرة واحدة
رابط البرنامج التعليمي:
تشغيل تجريبي
1. بعد الدخول إلى الصفحة الرئيسية لـ hyper.ai، حدد صفحة "البرنامج التعليمي"، وحدد "ParaKeet-tdt-0.6b-v2 Speech Recognition"، وانقر فوق "تشغيل هذا البرنامج التعليمي عبر الإنترنت".


2. بعد الانتقال إلى الصفحة التالية، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

3. حدد الصورتين "NVIDIA GeForce RTX 4090" و"PyTorch". توفر منصة OpenBayes أربع طرق للدفع. يمكنك اختيار "الدفع حسب الاستخدام" أو "يوميًا/أسبوعيًا/شهريًا" وفقًا لاحتياجاتك. انقر فوق "متابعة". يمكن للمستخدمين الجدد التسجيل باستخدام رابط الدعوة أدناه للحصول على 4 ساعات من RTX 4090 + 5 ساعات من وقت فراغ وحدة المعالجة المركزية!
رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):
https://openbayes.com/console/signup?r=Ada0322_NR0n


4. انتظر حتى يتم تخصيص الموارد. تستغرق عملية الاستنساخ الأولى حوالي دقيقتين. عندما تتغير الحالة إلى "قيد التشغيل"، انقر فوق سهم الانتقال بجوار "عنوان API" للانتقال إلى صفحة العرض التوضيحي. يرجى ملاحظة أنه يجب على المستخدمين إكمال مصادقة الاسم الحقيقي قبل استخدام وظيفة الوصول إلى عنوان API.


عرض التأثير
قم بتحميل الملف الصوتي في "تحميل ملف صوتي"، ثم انقر فوق "نسخ الملف المحمل" للتعرف عليه. لقد قمت هنا بتحميل مقطع صوتي لخطاب رئيسي في مؤتمر Google I/O، وقد تعرف عليه النموذج بسرعة وبدقة.

محتوى التعرف على الكلام هو كما يلي:
مرحبا بالجميع، صباح الخير.
مرحبًا بك في Google.io.
لقد علمت أن اليوم هو بداية موسم الجوزاء.
لست متأكدًا حقًا من ماهية الأمر الكبير.
كل يوم هو موسم الجوزاء هنا في جوجل.
قبل بضعة أسابيع، أكمل جيميني لعبة بوكيمون بلو.
بالإضافة إلى ذلك، يدعم ParaKeet-tdt-0.6b-v2 أيضًا الإدخال الصوتي. انقر فوق "الميكروفون"، ثم انقر فوق "تسجيل"، وبعد اكتمال التسجيل، انقر فوق "نسخ الملف المحمّل" للتعرف عليه.

ما ورد أعلاه هو البرنامج التعليمي العملي الذي أوصى به HyperAI هذه المرة. الجميع مدعوون لتجربة ذلك!
رابط البرنامج التعليمي: