HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على الكلام البصري لعدة لغات في البيئة الحقيقية

Pingchuan Ma Stavros Petridis Maja Pantic

الملخص

التعرف على الكلام البصري (VSR) يهدف إلى التعرف على محتوى الكلام بناءً على حركات الشفاه، دون الاعتماد على الموجة الصوتية. التقدم في تعلم العمق وتوافر قواعد بيانات صوتية-بصرية كبيرة أدّى إلى تطوير نماذج VSR أكثر دقة ومتانة من أي وقت مضى. ومع ذلك، فإن هذه التطورات غالبًا ما تكون بسبب زيادة حجم مجموعات التدريب بدلًا من تصميم النموذج. هنا نثبت أن تصميم نماذج أفضل هو أمر مهم بنفس القدر مثل استخدام مجموعات تدريب أكبر. نقترح إضافة مهام فرعية تعتمد على التنبؤ إلى نموذج VSR، ونؤكد أهمية تحسين المعلمات الفائقة واختيارات التعزيز المناسبة للبيانات. نظهر أن هذا النموذج يعمل مع لغات مختلفة ويتفوق بكثير على جميع الأساليب السابقة التي تم تدريبها على قواعد بيانات متاحة للعامة. بل وحتى أنه يتفوق على النماذج التي تم تدريبها على قواعد بيانات غير متاحة للعامة تحتوي على ما يصل إلى 21 مرة أكثر من البيانات. بالإضافة إلى ذلك، نبين أن استخدام بيانات تدريب إضافية، حتى لو كانت بلغات أخرى أو مع النصوص المُنتجة آليًا، يؤدي إلى تحسين إضافي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp