HyperAIHyperAI
منذ 17 أيام

تياسيل: نموذج لغوي مُسبق بالصوت يستند إلى التحويلة

Mehdi Arjmand, Mohammad Javad Dousti, Hadi Moradi
تياسيل: نموذج لغوي مُسبق بالصوت يستند إلى التحويلة
الملخص

تحليل اللغة متعدد الوسائط هو مجال ناشئ في معالجة اللغة الطبيعية (NLP) يهدف إلى نمذجة معايير المتحدث بشكل متزامن، بما في ذلك كلماته، والبيانات الصوتية، وتعبيرات الوجه. في هذا المجال، تتفوق عناصر القاموس عادةً على الوسائط الأخرى، نظرًا لأنها مُدرَّبة مسبقًا على مجموعات بيانات كبيرة باستخدام نماذج تعتمد على مُحولّات (Transformer). وعلى الرغم من أداؤها القوي، فإن تدريب نموذج جديد مُحولّات ذاتية التعلم (SSL) على أي وسائط يُعدّ غير عملي غالبًا بسبب نقص البيانات، وهو ما ينطبق بشكل خاص على تعلم اللغة متعدد الوسائط. تُقترح في هذه الدراسة نموذج مُحولّات مُعدّل يُسمى TEASEL (Transformer-Based Speech-Prefixed Language Model) للتعامل مع هذه القيود دون الحاجة إلى تدريب نموذج مُحولّات كامل. يُعدّ نموذج TEASEL مُزوّدًا بوسائط صوتية كمُقدّمة ديناميكية إلى جانب الوسائط النصية، مقارنةً بالنماذج اللغوية التقليدية. تعتمد هذه الطريقة على استخدام نموذج لغوي مُدرّب مسبقًا كنموذج مُحولّات عابر للوسائط. تم تقييم نموذج TEASEL في مهمة تحليل المشاعر متعددة الوسائط المحددة في مجموعة بيانات CMU-MOSI. أظهرت التجارب الواسعة أن نموذجنا يتفوق على النماذج الأساسية أحادية الوسائط بنسبة 4%، ويتفوق على أحدث النماذج متعددة الوسائط (SoTA) بنسبة 1% من حيث دقة F1. بالإضافة إلى ذلك، فإن الطريقة المقترحة أصغر بنسبة 72% من النموذج الحالي الأفضل (SoTA).

تياسيل: نموذج لغوي مُسبق بالصوت يستند إلى التحويلة | أحدث الأوراق البحثية | HyperAI