الملخص

أظهرت نماذج توليد الرؤوس المتحركة المستندة إلى الصوت تقدماً ملحوظاً في الواقعية البصرية، لكن النماذج الحالية المتطورة (SOTA) تعاني من عيب جوهري: فهي تفتقر إلى القدرة على التعميم على الطيف الكامل للتنوع البشري المتمثل في العرق، واللغة، ومجموعات الأعمار. نحن نرى أن هذه الفجوة في التعميم هي نتيجة مباشرة لقيود البيانات التدريبية الحالية، التي تفتقر إلى الحجم اللازم، والجودة، والتنوع الضروريين. وللتصدي لهذا التحدي، نقدّم "TalkVid"، مجموعة بيانات جديدة كبيرة الحجم، عالية الجودة، ومتنوعة، تتضمن 1244 ساعة من الفيديو المُجمّعة من 7729 متحدثاً فريداً. تم تجميع "TalkVid" عبر عملية آلية متعددة المراحل، مبنية على مبادئ علمية، تُطبّق تصفية صارمة من حيث استقرار الحركة، والجودة الجمالية، ودقة التفاصيل الوجهية، وتُحقّق صحتها من خلال مقارنتها بآراء البشر لضمان موثوقيتها. علاوةً على ذلك، قمنا ببناء ونشر "TalkVid-Bench"، وهي مجموعة تقييم مُقسّمة (Stratified) تتألف من 500 لقطة، تم توازنها بدقة على طول المحاور الديموغرافية واللغوية الرئيسية. تُظهر تجاربنا أن النموذج المدرب على "TalkVid" يتفوّق على النماذج المدربة على مجموعات بيانات سابقة، ويُظهر أداءً متفوّقاً في التعميم عبر المجموعات المختلفة. ويبقى المهم أن تحليلنا المُجري على "TalkVid-Bench" كشف عن فروق في الأداء بين المجموعات الفرعية، كانت مُخفية خلف المقاييس المجمّعة التقليدية، مما يُبرز ضرورة استخدامها في الأبحاث المستقبلية. يمكن الاطلاع على الكود والبيانات عبر الرابط التالي: https://github.com/FreedomIntelligence/TalkVid

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

TalkVid: مجموعة بيانات كبيرة ومتنوعة لمحاكاة رأس يتحدث يُتحكم به الصوت

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TalkVid: مجموعة بيانات كبيرة ومتنوعة لمحاكاة رأس يتحدث يُتحكم به الصوت

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TalkVid: مجموعة بيانات كبيرة ومتنوعة لمحاكاة رأس يتحدث يُتحكم به الصوت

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li

Shunian Chen Hejin Huang Yexin Liu Zihan Ye Pengcheng Chen Chenghao Zhu Michael Guan Rongsheng Wang Junying Chen Guanbin Li