HyperAIHyperAI
منذ 11 أيام

Zero-AVSR: التعرف على الكلام الصوتي البصري الصفرية باستخدام LLMs من خلال تعلّم تمثيلات صوتية لا تعتمد على اللغة

Jeong Hun Yeo, Minsu Kim, Chae Won Kim, Stavros Petridis, Yong Man Ro
Zero-AVSR: التعرف على الكلام الصوتي البصري الصفرية باستخدام LLMs من خلال تعلّم تمثيلات صوتية لا تعتمد على اللغة
الملخص

نستكشف إطارًا جديدًا للإعراب الصوتي البصري للغة (AVSR) بدون استخدام أمثلة تدريبية، يُدعى Zero-AVSR، والذي يُمكّن من التعرف على الكلام بلغات الهدف دون الحاجة إلى أي بيانات صوتية وبصرية بلغات تلك اللغات. بشكل خاص، نقدّم ما يُعرف بـ "مُحَوِّل الكلام الصوتي البصري إلى نص روماني" (AV-Romanizer)، الذي يتعلم تمثيلات صوتية عامة للغات من خلال التنبؤ بنص روماني. ثم، وباستخدام القدرات القوية للنمذجة متعددة اللغات في نماذج اللغة الكبيرة (LLMs)، نقترح تحويل النص الروماني المُنبَّأ إليه إلى رموز مكتوبة محددة للغة، مما يشكّل الإطار المقترح المعروف بـ "Zero-AVSR المتسلسل". وبخطوة متقدمة، نستكشف نهجًا موحدًا لـ Zero-AVSR من خلال دمج التمثيلات الصوتية البصرية المُشفَّرة بواسطة AV-Romanizer مباشرةً في نموذج اللغة الكبير. ويتم ذلك من خلال تدريب النموذج المُعدّل (adapter) ونموذج LLM باستخدام خطة تعلم متعدد المهام التي نقترحها. وبالإضافة إلى ذلك، لالتقاط الطيف الواسع للتنوع الصوتي واللغوي، نقدّم مجموعة بيانات صوتية وبصرية متعددة اللغات مُحَوَّلة رومانيًا (MARC)، تتضمن 2916 ساعة من البيانات الصوتية والبصرية المُسجَّلة بلغات 82 لغة، إلى جانب نصوص مكتوبة بالرموز اللغوية المحددة والنص الروماني. وقد أكدت التحليلات والتجارب الواسعة أن الإطار المقترح لـ Zero-AVSR يتمتع بالإمكانية الكبيرة لتوسيع دعم اللغات إلى ما وراء اللغات التي تم تدريب AV-Romanizer عليها.

Zero-AVSR: التعرف على الكلام الصوتي البصري الصفرية باستخدام LLMs من خلال تعلّم تمثيلات صوتية لا تعتمد على اللغة | أحدث الأوراق البحثية | HyperAI