منذ 6 أشهر

الملخص

نستكشف إطارًا جديدًا للإعراب الصوتي البصري للغة (AVSR) بدون استخدام أمثلة تدريبية، يُدعى Zero-AVSR، والذي يُمكّن من التعرف على الكلام بلغات الهدف دون الحاجة إلى أي بيانات صوتية وبصرية بلغات تلك اللغات. بشكل خاص، نقدّم ما يُعرف بـ "مُحَوِّل الكلام الصوتي البصري إلى نص روماني" (AV-Romanizer)، الذي يتعلم تمثيلات صوتية عامة للغات من خلال التنبؤ بنص روماني. ثم، وباستخدام القدرات القوية للنمذجة متعددة اللغات في نماذج اللغة الكبيرة (LLMs)، نقترح تحويل النص الروماني المُنبَّأ إليه إلى رموز مكتوبة محددة للغة، مما يشكّل الإطار المقترح المعروف بـ "Zero-AVSR المتسلسل". وبخطوة متقدمة، نستكشف نهجًا موحدًا لـ Zero-AVSR من خلال دمج التمثيلات الصوتية البصرية المُشفَّرة بواسطة AV-Romanizer مباشرةً في نموذج اللغة الكبير. ويتم ذلك من خلال تدريب النموذج المُعدّل (adapter) ونموذج LLM باستخدام خطة تعلم متعدد المهام التي نقترحها. وبالإضافة إلى ذلك، لالتقاط الطيف الواسع للتنوع الصوتي واللغوي، نقدّم مجموعة بيانات صوتية وبصرية متعددة اللغات مُحَوَّلة رومانيًا (MARC)، تتضمن 2916 ساعة من البيانات الصوتية والبصرية المُسجَّلة بلغات 82 لغة، إلى جانب نصوص مكتوبة بالرموز اللغوية المحددة والنص الروماني. وقد أكدت التحليلات والتجارب الواسعة أن الإطار المقترح لـ Zero-AVSR يتمتع بالإمكانية الكبيرة لتوسيع دعم اللغات إلى ما وراء اللغات التي تم تدريب AV-Romanizer عليها.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Jeong Hun Yeo Minsu Kim Chae Won Kim Stavros Petridis Yong Man Ro

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jeong Hun Yeo Minsu Kim Chae Won Kim Stavros Petridis Yong Man Ro

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Jeong Hun Yeo Minsu Kim Chae Won Kim Stavros Petridis Yong Man Ro

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Zero-AVSR: التعرف على الكلام الصوتي البصري الصفرية باستخدام LLMs من خلال تعلّم تمثيلات صوتية لا تعتمد على اللغة

Jeong Hun Yeo Minsu Kim Chae Won Kim Stavros Petridis Yong Man Ro

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Zero-AVSR: التعرف على الكلام الصوتي البصري الصفرية باستخدام LLMs من خلال تعلّم تمثيلات صوتية لا تعتمد على اللغة

Jeong Hun Yeo Minsu Kim Chae Won Kim Stavros Petridis Yong Man Ro

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Zero-AVSR: التعرف على الكلام الصوتي البصري الصفرية باستخدام LLMs من خلال تعلّم تمثيلات صوتية لا تعتمد على اللغة

Jeong Hun Yeo Minsu Kim Chae Won Kim Stavros Petridis Yong Man Ro

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters