HyperAIHyperAI

Command Palette

Search for a command to run...

هل ما زلنا بحاجة إلى التعرف التلقائي على الكلام لفهم اللغة المنطوقة؟

Lasse Borgholt Jakob Drachmann Havtorn Mostafa Abdou Joakim Edin Lars Maaløe Anders Søgaard Christian Igel

الملخص

تُحل مهام فهم اللغة المسموعة (SLU) عادةً من خلال تحويل النطق تلقائيًا باستخدام التعرف على الكلام التلقائي (ASR)، ثم تمرير الناتج إلى نموذج يعتمد على النص. ركزت التطورات الحديثة في تعلم التمثيل ذاتي-الإشراف للبيانات الصوتية على تحسين مكون التعرف على الكلام التلقائي. نستعرض ما إذا كان تعلم التمثيل للصوت قد بلغ مستوى كفاية يسمح بتعويض ASR في مهام فهم اللغة المسموعة. نقارن بين السمات الصوتية المُستخلصة من wav2vec 2.0، ونصوص التحويل من ASR من الطراز الأمثل، والنص الحقيقي كمدخلات لمهام جديدة قائمة على الصوت، منها مهمة التعرف على الكيانات المحددة (named entity recognition)، ومهام الكشف عن توقف القلب في مكالمات الطوارئ الواقعية، بالإضافة إلى بحثين موجودين لمهام فهم اللغة المسموعة. نُظهر أن السمات الصوتية المستخلصة تتفوق على نصوص ASR في ثلاث مهام تصنيف. أما في مجال الترجمة الآلية، فإن نصوص ASR تبقى الخيار الأفضل. ونُبرز المرونة الطبيعية لتمثيلات wav2vec 2.0 تجاه الكلمات غير المدرجة في قاموس المفردات (out-of-vocabulary words) كعامل رئيسي يُفسر الأداء الأفضل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp