هل ما زلنا بحاجة إلى التعرف التلقائي على الكلام لفهم اللغة المنطوقة؟

تُحل مهام فهم اللغة المسموعة (SLU) عادةً من خلال تحويل النطق تلقائيًا باستخدام التعرف على الكلام التلقائي (ASR)، ثم تمرير الناتج إلى نموذج يعتمد على النص. ركزت التطورات الحديثة في تعلم التمثيل ذاتي-الإشراف للبيانات الصوتية على تحسين مكون التعرف على الكلام التلقائي. نستعرض ما إذا كان تعلم التمثيل للصوت قد بلغ مستوى كفاية يسمح بتعويض ASR في مهام فهم اللغة المسموعة. نقارن بين السمات الصوتية المُستخلصة من wav2vec 2.0، ونصوص التحويل من ASR من الطراز الأمثل، والنص الحقيقي كمدخلات لمهام جديدة قائمة على الصوت، منها مهمة التعرف على الكيانات المحددة (named entity recognition)، ومهام الكشف عن توقف القلب في مكالمات الطوارئ الواقعية، بالإضافة إلى بحثين موجودين لمهام فهم اللغة المسموعة. نُظهر أن السمات الصوتية المستخلصة تتفوق على نصوص ASR في ثلاث مهام تصنيف. أما في مجال الترجمة الآلية، فإن نصوص ASR تبقى الخيار الأفضل. ونُبرز المرونة الطبيعية لتمثيلات wav2vec 2.0 تجاه الكلمات غير المدرجة في قاموس المفردات (out-of-vocabulary words) كعامل رئيسي يُفسر الأداء الأفضل.