HyperAIHyperAI

Command Palette

Search for a command to run...

MMS-LLaMA: اعتراف صوتي بصري مبني على LLM بكفاءة مع عدد قليل جدًا من الرموز المتعددة الوسائط الصوتية

Yeo Jeong Hun Rha Hyeongseop Park Se Jin Ro Yong Man

الملخص

تمكّن التعرف على الكلام متعدد الوسائط الصوتي والبصري (AVSR) من تحقيق تعرف على كلام قوي في البيئات الصاخبة من خلال دمج المعلومات الصوتية والبصرية. ومع ذلك، فإن الأنظمة الحديثة لـ AVSR القائمة على النماذج اللغوية الكبيرة (LLM) تُحدث تكاليف حسابية عالية بسبب القدرة العالية على التفكيك الزمني للصوت والصورة التي تعالجها النماذج اللغوية الكبيرة. في هذه الدراسة، نقدّم إطارًا فعّالًا لنموذج لغوي كبير متعدد الوسائط للكلام، يُقلّل من طول السلاسل النصية (token length) مع الحفاظ على المحتوى اللغوي الضروري. يعتمد نهجنا على وحدة دمج مبكر (early AV-fusion) لدمج الميزات بشكل مُبسّط، ونموذج Q-Former للكلام الصوتي والبصري يُوزّع السلاسل النصية ديناميكيًا بناءً على مدة الإدخال، بالإضافة إلى استراتيجية مُحسّنة لتخصيص السلاسل النصية تستخدم مُحدّدًا لسرعة الكلام لضبط توزيع السلاسل النصية وفقًا لسرعة التحدث في كل عينة صوتية. أظهرت التجارب الواسعة على مجموعة بيانات LRS3 أداءً متميزًا يُعدّ الأفضل في مجاله، حيث بلغ معدل الخطأ في التعرف على الكلام (WER) 0.72% مع استخدام ما معدّله 3.5 سلسلة نصية في الثانية فقط. علاوة على ذلك، فإن النهج المُقدّم يقلّل من استخدام السلاسل النصية بنسبة 86% مقارنةً بالإطار السابق لنموذج لغوي كبير متعدد الوسائط للكلام، كما يُحسّن الكفاءة الحسابية من خلال خفض عدد العمليات الحسابية (FLOPs) بنسبة 35.7%.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp