Zero-AVSR: التعرف على الكلام الصوتي البصري الصفرية باستخدام LLMs من خلال تعلّم تمثيلات صوتية لا تعتمد على اللغة

نستكشف إطارًا جديدًا للإعراب الصوتي البصري للغة (AVSR) بدون استخدام أمثلة تدريبية، يُدعى Zero-AVSR، والذي يُمكّن من التعرف على الكلام بلغات الهدف دون الحاجة إلى أي بيانات صوتية وبصرية بلغات تلك اللغات. بشكل خاص، نقدّم ما يُعرف بـ "مُحَوِّل الكلام الصوتي البصري إلى نص روماني" (AV-Romanizer)، الذي يتعلم تمثيلات صوتية عامة للغات من خلال التنبؤ بنص روماني. ثم، وباستخدام القدرات القوية للنمذجة متعددة اللغات في نماذج اللغة الكبيرة (LLMs)، نقترح تحويل النص الروماني المُنبَّأ إليه إلى رموز مكتوبة محددة للغة، مما يشكّل الإطار المقترح المعروف بـ "Zero-AVSR المتسلسل". وبخطوة متقدمة، نستكشف نهجًا موحدًا لـ Zero-AVSR من خلال دمج التمثيلات الصوتية البصرية المُشفَّرة بواسطة AV-Romanizer مباشرةً في نموذج اللغة الكبير. ويتم ذلك من خلال تدريب النموذج المُعدّل (adapter) ونموذج LLM باستخدام خطة تعلم متعدد المهام التي نقترحها. وبالإضافة إلى ذلك، لالتقاط الطيف الواسع للتنوع الصوتي واللغوي، نقدّم مجموعة بيانات صوتية وبصرية متعددة اللغات مُحَوَّلة رومانيًا (MARC)، تتضمن 2916 ساعة من البيانات الصوتية والبصرية المُسجَّلة بلغات 82 لغة، إلى جانب نصوص مكتوبة بالرموز اللغوية المحددة والنص الروماني. وقد أكدت التحليلات والتجارب الواسعة أن الإطار المقترح لـ Zero-AVSR يتمتع بالإمكانية الكبيرة لتوسيع دعم اللغات إلى ما وراء اللغات التي تم تدريب AV-Romanizer عليها.