Command Palette
Search for a command to run...
TalkVid: مجموعة بيانات كبيرة ومتنوعة لمحاكاة رأس يتحدث يُتحكم به الصوت

الملخص
أظهرت نماذج توليد الرؤوس المتحركة المستندة إلى الصوت تقدماً ملحوظاً في الواقعية البصرية، لكن النماذج الحالية المتطورة (SOTA) تعاني من عيب جوهري: فهي تفتقر إلى القدرة على التعميم على الطيف الكامل للتنوع البشري المتمثل في العرق، واللغة، ومجموعات الأعمار. نحن نرى أن هذه الفجوة في التعميم هي نتيجة مباشرة لقيود البيانات التدريبية الحالية، التي تفتقر إلى الحجم اللازم، والجودة، والتنوع الضروريين. وللتصدي لهذا التحدي، نقدّم "TalkVid"، مجموعة بيانات جديدة كبيرة الحجم، عالية الجودة، ومتنوعة، تتضمن 1244 ساعة من الفيديو المُجمّعة من 7729 متحدثاً فريداً. تم تجميع "TalkVid" عبر عملية آلية متعددة المراحل، مبنية على مبادئ علمية، تُطبّق تصفية صارمة من حيث استقرار الحركة، والجودة الجمالية، ودقة التفاصيل الوجهية، وتُحقّق صحتها من خلال مقارنتها بآراء البشر لضمان موثوقيتها. علاوةً على ذلك، قمنا ببناء ونشر "TalkVid-Bench"، وهي مجموعة تقييم مُقسّمة (Stratified) تتألف من 500 لقطة، تم توازنها بدقة على طول المحاور الديموغرافية واللغوية الرئيسية. تُظهر تجاربنا أن النموذج المدرب على "TalkVid" يتفوّق على النماذج المدربة على مجموعات بيانات سابقة، ويُظهر أداءً متفوّقاً في التعميم عبر المجموعات المختلفة. ويبقى المهم أن تحليلنا المُجري على "TalkVid-Bench" كشف عن فروق في الأداء بين المجموعات الفرعية، كانت مُخفية خلف المقاييس المجمّعة التقليدية، مما يُبرز ضرورة استخدامها في الأبحاث المستقبلية. يمكن الاطلاع على الكود والبيانات عبر الرابط التالي: https://github.com/FreedomIntelligence/TalkVid
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.