HyperAIHyperAI

Command Palette

Search for a command to run...

VoxBlink2: مكتبة تمييز المتحدثين بـ 100,000+ ومقياس التعرف على المتحدث في مجموعة مفتوحة

Yuke Lin Ming Cheng Fulin Zhang Yingying Gao Shilei Zhang Ming Li

الملخص

في هذا البحث، نقدم مجموعة بيانات كبيرة للتمييز بين المتحدثين باستخدام الصوت والصورة، تُسمى VoxBlink2، والتي تتضمن حوالي 10 مليون جملة مع مقاطع فيديو من أكثر من 110 ألف متحدث في بيئات حقيقية. تمثل هذه المجموعة بيانات توسعًا كبيرًا على مجموعة بيانات VoxBlink، حيث تغطي تنوعًا أوسع للمتحدثين والسياقات بفضل خط أنابيب جمع البيانات المحسّن. بعد ذلك، نستكشف تأثير استراتيجيات التدريب، وحجم البيانات، وتعقيد النموذج على التحقق من هوية المتحدث، ونقوم في النهاية بتحديد أحدث نسبة خطأ متساوي (EER) لنموذج واحد بلغت 0.170% وأدنى دالة تكلفة قرار (minDCF) بلغت 0.006% على مجموعة اختبار VoxCeleb1-O. هذه النتائج الباهرة تحفزنا على استكشاف التمييز بين المتحدثين من منظور جديد ومتحدي. نقترح مهمة التعرف على المتحدث في البيئة المفتوحة (Open-Set Speaker-Identification)، وهي مصممة لتطابق جملة الاختبار مع متحدث معروف في المعرض أو تصنيفها كاستعلام غير معروف. فيما يتعلق بهذه المهمة، صممنا بروتوكولات تقييم ومعايير معيارية ملموسة. يمكن العثور على البيانات ومصادر النماذج في http://voxblink2.github.io.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp