منذ 16 أيام

MMS-LLaMA: اعتراف صوتي بصري مبني على LLM بكفاءة مع عدد قليل جدًا من الرموز المتعددة الوسائط الصوتية

Yeo, Jeong Hun, Rha, Hyeongseop, Park, Se Jin, Ro, Yong Man

الملخص

تمكّن التعرف على الكلام متعدد الوسائط الصوتي والبصري (AVSR) من تحقيق تعرف على كلام قوي في البيئات الصاخبة من خلال دمج المعلومات الصوتية والبصرية. ومع ذلك، فإن الأنظمة الحديثة لـ AVSR القائمة على النماذج اللغوية الكبيرة (LLM) تُحدث تكاليف حسابية عالية بسبب القدرة العالية على التفكيك الزمني للصوت والصورة التي تعالجها النماذج اللغوية الكبيرة. في هذه الدراسة، نقدّم إطارًا فعّالًا لنموذج لغوي كبير متعدد الوسائط للكلام، يُقلّل من طول السلاسل النصية (token length) مع الحفاظ على المحتوى اللغوي الضروري. يعتمد نهجنا على وحدة دمج مبكر (early AV-fusion) لدمج الميزات بشكل مُبسّط، ونموذج Q-Former للكلام الصوتي والبصري يُوزّع السلاسل النصية ديناميكيًا بناءً على مدة الإدخال، بالإضافة إلى استراتيجية مُحسّنة لتخصيص السلاسل النصية تستخدم مُحدّدًا لسرعة الكلام لضبط توزيع السلاسل النصية وفقًا لسرعة التحدث في كل عينة صوتية. أظهرت التجارب الواسعة على مجموعة بيانات LRS3 أداءً متميزًا يُعدّ الأفضل في مجاله، حيث بلغ معدل الخطأ في التعرف على الكلام (WER) 0.72% مع استخدام ما معدّله 3.5 سلسلة نصية في الثانية فقط. علاوة على ذلك، فإن النهج المُقدّم يقلّل من استخدام السلاسل النصية بنسبة 86% مقارنةً بالإطار السابق لنموذج لغوي كبير متعدد الوسائط للكلام، كما يُحسّن الكفاءة الحسابية من خلال خفض عدد العمليات الحسابية (FLOPs) بنسبة 35.7%.