HyperAIHyperAI
منذ 17 أيام

ليرا: إطار فعّال ومركز على الكلام للإدراك الشامل

Zhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia
ليرا: إطار فعّال ومركز على الكلام للإدراك الشامل
الملخص

مع تطور النماذج الكبيرة متعددة الوسائط (MLLMs)، أصبح من الضروري توسيع قدراتها خارج نطاق مجال واحد لتلبية الطلب المتزايد على ذكاء اصطناعي أكثر مرونة وكفاءة. ومع ذلك، فإن النماذج الشاملة السابقة لم تستكشف بشكل كافٍ القدرة الصوتية، وتجاهلت دمجها مع الوسائط المتعددة. نقدم "ليرا" (Lyra)، وهي نموذج متطور متعدد الوسائط يعزز القدرات متعددة الوسائط، بما في ذلك الفهم المتقدم للصوت الطويل، وفهم الصوت، والكفاءة عبر الوسائط المختلفة، والتفاعل السلس مع الصوت. لتحقيق الكفاءة والقدرات المتمحورة حول الصوت، تستخدم ليرا ثلاث استراتيجيات: (1) الاستفادة من النماذج الكبيرة المفتوحة المصدر الحالية، وتطبيق تقنية LoRA متعددة الوسائط المُقترحة لتقليل تكاليف التدريب ومتطلبات البيانات؛ (2) استخدام منظم متعدد الوسائط في الفضاء المخفي واست extractor لتعزيز العلاقة بين الصوت والوسائط الأخرى، مما يعزز أداء النموذج؛ و(3) بناء مجموعة بيانات عالية الجودة وواسعة النطاق تتضمن 1.5 مليون عينة متعددة الوسائط (لغة، بصريات، صوت) و12 ألف عينة صوتية طويلة، مما يمكّن ليرا من التعامل مع مدخلات صوتية معقدة وطويلة، ويحقق تفكيرًا شاملاً وقويًا. مقارنةً بالأساليب الشاملة الأخرى، تحقق ليرا أداءً متقدمًا على مستوى الحدود في مجموعة متنوعة من المعايير المتعلقة بالرؤية واللغة، والرؤية والصوت، والصوت واللغة، مع استخدام موارد حسابية أقل وبيانات تدريب أقل.

ليرا: إطار فعّال ومركز على الكلام للإدراك الشامل | أحدث الأوراق البحثية | HyperAI