HyperAIHyperAI
منذ 2 أشهر

النماذج اللغوية الكبيرة هي متعلمات قويات للتعرف على الكلام السمعي البصري

Umberto Cappellazzo; Minsu Kim; Honglie Chen; Pingchuan Ma; Stavros Petridis; Daniele Falavigna; Alessio Brutti; Maja Pantic
النماذج اللغوية الكبيرة هي متعلمات قويات للتعرف على الكلام السمعي البصري
الملخص

لقد أصبحت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) مؤخرًا نقطة تركيز بحثية بسبب قدراتها المتميزة على فهم الوسائط المتعددة. على سبيل المثال، في مجال الصوت والكلام، يمكن تجهيز نموذج لغة كبير (LLM) بقدرات التعرف التلقائي على الكلام (ASR) من خلال مجرد ربط علامات الصوت، التي يتم حسابها باستخدام مشفّر صوتي، مع علامات النص للحصول على نتائج رائدة. بالمقابل، لم تتلق مهام مثل التعرف على الكلام البصري والبصري-الصوتي (VSR/AVSR)، والتي تستفيد أيضًا من المعلومات المتعلقة بحركة الشفاه غير القابلة للتغير بالضوضاء، اهتمامًا قليلًا أو لا اهتمام. لسد هذه الفجوة، نقترح Llama-AVSR، وهو نموذج لغة كبير متعدد الوسائط جديد يمتلك قدرات تعرف قوية على الكلام البصري-الصوتي. يستخدم هذا النموذج مشفرات صوتية وبصرية مسبقة التدريب لإنتاج علامات خاصة بكل وسيلة، والتي يتم معالجتها مع علامات النص بواسطة نموذج لغة كبير مسبق التدريب (مثل Llama3.1-8B) للحصول على الرد النهائي بطريقة ذاتية التنظيم. يتطلب Llama-AVSR عددًا صغيرًا من المعلمات القابلة للتدريب حيث يتم تدريب مشغلات خاصة بكل وسيلة وأجزاء LoRA فقط بينما يبقى المشفرات متعددة الوسائط والنماذج اللغوية الكبيرة ثابتة. قدمنا تقييمًا لنهجنا المقترح باستخدام مجموعة الاختبار LRS3، وهي أكبر مجموعة بيانات عامة لتعرف الكلام البصري-الصوتي (AVSR)، وقد حققنا نتائج جديدة رائدة في مهام ASR و AVSR بمعدل خطأ الكلمات (WER) بلغ 0.79% و 0.77% على التوالي. لتعزيز نتائجنا، درسنا العوامل الرئيسية التي تعزز فعالية Llama-AVSR: اختيار المشفرات والنماذج اللغوية الكبيرة المسبقة التدريب، دمج أجزاء LoRA بكفاءة، والتوازن الأمثل بين الأداء والكفاءة الذي تم الحصول عليه عبر معدلات ضغط واعية بالوسيلة.