HyperAIHyperAI

Command Palette

Search for a command to run...

Zero-AVSR: التعرف على الكلام الصوتي البصري الصفرية باستخدام LLMs من خلال تعلّم تمثيلات صوتية لا تعتمد على اللغة

Jeong Hun Yeo Minsu Kim Chae Won Kim Stavros Petridis Yong Man Ro

الملخص

نستكشف إطارًا جديدًا للإعراب الصوتي البصري للغة (AVSR) بدون استخدام أمثلة تدريبية، يُدعى Zero-AVSR، والذي يُمكّن من التعرف على الكلام بلغات الهدف دون الحاجة إلى أي بيانات صوتية وبصرية بلغات تلك اللغات. بشكل خاص، نقدّم ما يُعرف بـ "مُحَوِّل الكلام الصوتي البصري إلى نص روماني" (AV-Romanizer)، الذي يتعلم تمثيلات صوتية عامة للغات من خلال التنبؤ بنص روماني. ثم، وباستخدام القدرات القوية للنمذجة متعددة اللغات في نماذج اللغة الكبيرة (LLMs)، نقترح تحويل النص الروماني المُنبَّأ إليه إلى رموز مكتوبة محددة للغة، مما يشكّل الإطار المقترح المعروف بـ "Zero-AVSR المتسلسل". وبخطوة متقدمة، نستكشف نهجًا موحدًا لـ Zero-AVSR من خلال دمج التمثيلات الصوتية البصرية المُشفَّرة بواسطة AV-Romanizer مباشرةً في نموذج اللغة الكبير. ويتم ذلك من خلال تدريب النموذج المُعدّل (adapter) ونموذج LLM باستخدام خطة تعلم متعدد المهام التي نقترحها. وبالإضافة إلى ذلك، لالتقاط الطيف الواسع للتنوع الصوتي واللغوي، نقدّم مجموعة بيانات صوتية وبصرية متعددة اللغات مُحَوَّلة رومانيًا (MARC)، تتضمن 2916 ساعة من البيانات الصوتية والبصرية المُسجَّلة بلغات 82 لغة، إلى جانب نصوص مكتوبة بالرموز اللغوية المحددة والنص الروماني. وقد أكدت التحليلات والتجارب الواسعة أن الإطار المقترح لـ Zero-AVSR يتمتع بالإمكانية الكبيرة لتوسيع دعم اللغات إلى ما وراء اللغات التي تم تدريب AV-Romanizer عليها.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Zero-AVSR: التعرف على الكلام الصوتي البصري الصفرية باستخدام LLMs من خلال تعلّم تمثيلات صوتية لا تعتمد على اللغة | مستندات | HyperAI