HyperAIHyperAI
منذ 2 أشهر

نموذج لغة صوتي جديد يمتلك قدرات التعلم القليل الإطارات والمحادثة: فلامينغو الصوتي

Kong, Zhifeng ; Goel, Arushi ; Badlani, Rohan ; Ping, Wei ; Valle, Rafael ; Catanzaro, Bryan
نموذج لغة صوتي جديد يمتلك قدرات التعلم القليل الإطارات والمحادثة: فلامينغو الصوتي
الملخص

تعزيز نماذج اللغات الكبيرة (LLMs) لفهم الصوت -- بما في ذلك الأصوات غير الكلامية والأحاديث غير اللفظية -- يعد من الأمور ذات الأهمية القصوى لتطبيقات عديدة ومتعددة للنماذج اللغوية الكبيرة في العالم الحقيقي. في هذا البحث، نقترح نموذج Audio Flamingo، وهو نموذج صوتي-لغوي جديد يتميز بـ 1) قدرة قوية على فهم الصوت، 2) القدرة على التكيف السريع مع المهام غير المعروفة من خلال التعلم السياقي والاسترجاع، و3) قدرة حوارية متعددة الدورات قوية. نقدم سلسلة من تقنيات التدريب، تصميم العمارة، واستراتيجيات البيانات لتعزيز نموذجنا بهذه القدرات. تؤكد التقييمات الشاملة عبر مجموعة متنوعة من مهام فهم الصوت فعالية طريقتنا، مما يضع معايير جديدة رائدة في المجال. يمكن الوصول إلى موقعنا التوضيحي على الرابط https://audioflamingo.github.io/ والكود متاح بشكل مفتوح المصدر على الرابط https://github.com/NVIDIA/audio-flamingo.