HyperAIHyperAI
منذ 2 أشهر

VoxBlink2: مكتبة تمييز المتحدثين بـ 100,000+ ومقياس التعرف على المتحدث في مجموعة مفتوحة

Yuke Lin; Ming Cheng; Fulin Zhang; Yingying Gao; Shilei Zhang; Ming Li
VoxBlink2: مكتبة تمييز المتحدثين بـ 100,000+ ومقياس التعرف على المتحدث في مجموعة مفتوحة
الملخص

في هذا البحث، نقدم مجموعة بيانات كبيرة للتمييز بين المتحدثين باستخدام الصوت والصورة، تُسمى VoxBlink2، والتي تتضمن حوالي 10 مليون جملة مع مقاطع فيديو من أكثر من 110 ألف متحدث في بيئات حقيقية. تمثل هذه المجموعة بيانات توسعًا كبيرًا على مجموعة بيانات VoxBlink، حيث تغطي تنوعًا أوسع للمتحدثين والسياقات بفضل خط أنابيب جمع البيانات المحسّن. بعد ذلك، نستكشف تأثير استراتيجيات التدريب، وحجم البيانات، وتعقيد النموذج على التحقق من هوية المتحدث، ونقوم في النهاية بتحديد أحدث نسبة خطأ متساوي (EER) لنموذج واحد بلغت 0.170% وأدنى دالة تكلفة قرار (minDCF) بلغت 0.006% على مجموعة اختبار VoxCeleb1-O. هذه النتائج الباهرة تحفزنا على استكشاف التمييز بين المتحدثين من منظور جديد ومتحدي. نقترح مهمة التعرف على المتحدث في البيئة المفتوحة (Open-Set Speaker-Identification)، وهي مصممة لتطابق جملة الاختبار مع متحدث معروف في المعرض أو تصنيفها كاستعلام غير معروف. فيما يتعلق بهذه المهمة، صممنا بروتوكولات تقييم ومعايير معيارية ملموسة. يمكن العثور على البيانات ومصادر النماذج في http://voxblink2.github.io.