HyperAIHyperAI

Command Palette

Search for a command to run...

تقرير فني عن VibeVoice

الملخص

يقدم هذا التقرير نموذج "VibeVoice"، وهو نموذج جديد مصمم لمحاكاة الكلام الطويل متعدد المشاركين من خلال استخدام تقنية التوزيع للحرف التالي (next-token diffusion)، وهي طريقة موحدة لنمذجة البيانات المستمرة عبر توليد متجهات مخفية بشكل تلقائي (autoregressively) باستخدام عملية التوزيع. ولتمكين ذلك، نقدم مُحَوِّلًا صوتيًا مستمرًا جديدًا، والذي يُحقِّق تحسينًا بنسبة 80 مرة في ضغط البيانات مقارنةً بالنموذج الشهير Encodec، مع الحفاظ على أداء مماثل. ويُعد هذا المحول فعّالاً في الحفاظ على جودة الصوت الأصلي، مع تحسين كبير في الكفاءة الحسابية عند معالجة التسلسلات الطويلة. وبذلك، يمكن لنموذج VibeVoice محاكاة الكلام الطويل لمدة تصل إلى 90 دقيقة (باستخدام نافذة سياقية بطول 64K) مع دعم ما يصل إلى 4 مشاركين، مع التقاط الجو الحقيقي للحوار (conversational ``vibe'')، وتفوّقه على النماذج المفتوحة المصدر والخاصة في مجال المحادثات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تقرير فني عن VibeVoice | مستندات | HyperAI