Command Palette
Search for a command to run...

الملخص
يقدم هذا التقرير نموذج "VibeVoice"، وهو نموذج جديد مصمم لمحاكاة الكلام الطويل متعدد المشاركين من خلال استخدام تقنية التوزيع للحرف التالي (next-token diffusion)، وهي طريقة موحدة لنمذجة البيانات المستمرة عبر توليد متجهات مخفية بشكل تلقائي (autoregressively) باستخدام عملية التوزيع. ولتمكين ذلك، نقدم مُحَوِّلًا صوتيًا مستمرًا جديدًا، والذي يُحقِّق تحسينًا بنسبة 80 مرة في ضغط البيانات مقارنةً بالنموذج الشهير Encodec، مع الحفاظ على أداء مماثل. ويُعد هذا المحول فعّالاً في الحفاظ على جودة الصوت الأصلي، مع تحسين كبير في الكفاءة الحسابية عند معالجة التسلسلات الطويلة. وبذلك، يمكن لنموذج VibeVoice محاكاة الكلام الطويل لمدة تصل إلى 90 دقيقة (باستخدام نافذة سياقية بطول 64K) مع دعم ما يصل إلى 4 مشاركين، مع التقاط الجو الحقيقي للحوار (conversational ``vibe'')، وتفوّقه على النماذج المفتوحة المصدر والخاصة في مجال المحادثات.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.