منذ 8 أشهر

الملخص

تعزيز نماذج اللغات الكبيرة (LLMs) لفهم الصوت -- بما في ذلك الأصوات غير الكلامية والأحاديث غير اللفظية -- يعد من الأمور ذات الأهمية القصوى لتطبيقات عديدة ومتعددة للنماذج اللغوية الكبيرة في العالم الحقيقي. في هذا البحث، نقترح نموذج Audio Flamingo، وهو نموذج صوتي-لغوي جديد يتميز بـ 1) قدرة قوية على فهم الصوت، 2) القدرة على التكيف السريع مع المهام غير المعروفة من خلال التعلم السياقي والاسترجاع، و3) قدرة حوارية متعددة الدورات قوية. نقدم سلسلة من تقنيات التدريب، تصميم العمارة، واستراتيجيات البيانات لتعزيز نموذجنا بهذه القدرات. تؤكد التقييمات الشاملة عبر مجموعة متنوعة من مهام فهم الصوت فعالية طريقتنا، مما يضع معايير جديدة رائدة في المجال. يمكن الوصول إلى موقعنا التوضيحي على الرابط https://audioflamingo.github.io/ والكود متاح بشكل مفتوح المصدر على الرابط https://github.com/NVIDIA/audio-flamingo.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار