HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

تقرير فني عن VibeVoice

تقرير فني عن VibeVoice

الملخص

يقدم هذا التقرير نموذج "VibeVoice"، وهو نموذج جديد مصمم لمحاكاة الكلام الطويل متعدد المشاركين من خلال استخدام تقنية التوزيع للحرف التالي (next-token diffusion)، وهي طريقة موحدة لنمذجة البيانات المستمرة عبر توليد متجهات مخفية بشكل تلقائي (autoregressively) باستخدام عملية التوزيع. ولتمكين ذلك، نقدم مُحَوِّلًا صوتيًا مستمرًا جديدًا، والذي يُحقِّق تحسينًا بنسبة 80 مرة في ضغط البيانات مقارنةً بالنموذج الشهير Encodec، مع الحفاظ على أداء مماثل. ويُعد هذا المحول فعّالاً في الحفاظ على جودة الصوت الأصلي، مع تحسين كبير في الكفاءة الحسابية عند معالجة التسلسلات الطويلة. وبذلك، يمكن لنموذج VibeVoice محاكاة الكلام الطويل لمدة تصل إلى 90 دقيقة (باستخدام نافذة سياقية بطول 64K) مع دعم ما يصل إلى 4 مشاركين، مع التقاط الجو الحقيقي للحوار (conversational ``vibe'')، وتفوّقه على النماذج المفتوحة المصدر والخاصة في مجال المحادثات.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تقرير فني عن VibeVoice | الأوراق البحثية | HyperAI