HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على الكلام المستند إلى الحروف باستخدام شبكات الـ ConvNets المُحكَمة

Vitaliy Liptchinsky Gabriel Synnaeve Ronan Collobert

الملخص

في الأدبيات الحديثة، غالباً ما تشير أنظمة الكلام "من البداية إلى النهاية" (end-to-end) إلى نماذج صوتية مبنية على الحروف يتم تدريبها بطريقة متتابعة، إما من خلال نموذج متكرر أو من خلال نهج تعلم الإخراج المهيكل (مثل CTC). بخلاف النماذج التقليدية القائمة على الهوات (أو السينونات)، فإن هذه النماذج "من البداية إلى النهاية" تخفف الحاجة إلى نمذجة نطق الكلمات، ولا تتطلب خطوة "المحاذاة القسرية" (forced alignment) أثناء التدريب. ومع ذلك، تظل النماذج القائمة على الهوات هي الأكثر تقدماً في الاختبارات الكلاسيكية.في هذا البحث، نقترح نظاماً لتمييز الكلام يعتمد على الحروف، مستفيداً من نموذج الشبكة العصبية التلافيفي (ConvNet). من أهم عناصر ConvNet الوحدات الخطية المغلقة (Gated Linear Units) والانقطاع العالي (high dropout). يتم تدريب ConvNet على رسم خرائط بين سلاسل الصوت وترجماتها الحرفية المقابلة، إما باستخدام نهج CTC التقليدي أو عبر طريقة حديثة تُعرف باسم ASG. عند ربطه بمفكك بسيط أثناء الاستدلال، يحقق نظامنا أداءً مماثلاً لأفضل الأنظمة الحالية القائمة على الحروف في WSJ (وفقاً لمعدل خطأ الكلمات)، ويظهر أداءً قريباً من الأفضل في LibriSpeech.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp