HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

TalkVid: مجموعة بيانات كبيرة ومتنوعة لمحاكاة رأس يتحدث يُتحكم به الصوت

TalkVid: مجموعة بيانات كبيرة ومتنوعة لمحاكاة رأس يتحدث يُتحكم به الصوت

الملخص

أظهرت نماذج توليد الرؤوس المتحركة المستندة إلى الصوت تقدماً ملحوظاً في الواقعية البصرية، لكن النماذج الحالية المتطورة (SOTA) تعاني من عيب جوهري: فهي تفتقر إلى القدرة على التعميم على الطيف الكامل للتنوع البشري المتمثل في العرق، واللغة، ومجموعات الأعمار. نحن نرى أن هذه الفجوة في التعميم هي نتيجة مباشرة لقيود البيانات التدريبية الحالية، التي تفتقر إلى الحجم اللازم، والجودة، والتنوع الضروريين. وللتصدي لهذا التحدي، نقدّم "TalkVid"، مجموعة بيانات جديدة كبيرة الحجم، عالية الجودة، ومتنوعة، تتضمن 1244 ساعة من الفيديو المُجمّعة من 7729 متحدثاً فريداً. تم تجميع "TalkVid" عبر عملية آلية متعددة المراحل، مبنية على مبادئ علمية، تُطبّق تصفية صارمة من حيث استقرار الحركة، والجودة الجمالية، ودقة التفاصيل الوجهية، وتُحقّق صحتها من خلال مقارنتها بآراء البشر لضمان موثوقيتها. علاوةً على ذلك، قمنا ببناء ونشر "TalkVid-Bench"، وهي مجموعة تقييم مُقسّمة (Stratified) تتألف من 500 لقطة، تم توازنها بدقة على طول المحاور الديموغرافية واللغوية الرئيسية. تُظهر تجاربنا أن النموذج المدرب على "TalkVid" يتفوّق على النماذج المدربة على مجموعات بيانات سابقة، ويُظهر أداءً متفوّقاً في التعميم عبر المجموعات المختلفة. ويبقى المهم أن تحليلنا المُجري على "TalkVid-Bench" كشف عن فروق في الأداء بين المجموعات الفرعية، كانت مُخفية خلف المقاييس المجمّعة التقليدية، مما يُبرز ضرورة استخدامها في الأبحاث المستقبلية. يمكن الاطلاع على الكود والبيانات عبر الرابط التالي: https://github.com/FreedomIntelligence/TalkVid

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
TalkVid: مجموعة بيانات كبيرة ومتنوعة لمحاكاة رأس يتحدث يُتحكم به الصوت | الأوراق البحثية | HyperAI