حيث يلتقي الكلام البصري باللغة: إطار VSP-LLM لمعالجة الكلام البصري بكفاءة ووعي سياقي

في معالجة الكلام البصري، يعد قدرة نمذجة السياق من أهم المتطلبات بسبب الطبيعة الغامضة لحركات الشفاه. على سبيل المثال، يمكن تمييز الكلمات المتماثلة في حركات الشفاه (الهوموفونات)، وهي الكلمات التي تشترك في حركات شفاه متطابقة لكنها تنتج أصواتًا مختلفة، من خلال الأخذ بعين الاعتبار السياق. في هذا البحث، نقترح إطارًا جديدًا يُسمى معالجة الكلام البصري بالدمج مع النماذج اللغوية الكبيرة (VSP-LLM) بهدف تعظيم قدرة نمذجة السياق من خلال الاستفادة من القوة الهائلة للنماذج اللغوية الكبيرة. تحديدًا، تم تصميم VSP-LLM لأداء مهام متعددة في مجال التعرف على الكلام البصري والترجمة، حيث تتحكم التعليمات المعطاة في نوع المهمة. يتم ربط الفيديو الإدخالي بمساحة الخصائص الكامنة للنموذج اللغوي الكبير باستخدام نموذج الكلام البصري ذاتي الإشراف. مع التركيز على حقيقة وجود معلومات زائدة في الإطارات الإدخالية، نقترح طريقة جديدة للتخلص من التكرار تقلل من الخصائص المرئية المضمنة باستخدام وحدات الكلام البصري. من خلال الطريقة المقترحة للتخلص من التكرار وتعديل الرتبة المنخفضة (Low Rank Adaptation - LoRA)، يمكن تدريب VSP-LLM بطريقة كفاءتها حسابية عالية. في مجموعة بيانات الترجمة MuAViC، نوضح أن VSP-LLM الذي تم تدريبه على 30 ساعة فقط من البيانات المصنفة يمكنه ترجمة حركات الشفاه بشكل أكثر فعالية مقارنة بنموذج حديث تم تدريبه على 433 ساعة من البيانات.