VoxCeleb2: التعرف العميق على المتحدث

هدف هذه الورقة هو التعرف على المتحدث في ظروف صاخبة وغير مقيدة. نقدم مساهمتين رئيسيتين. أولاً، نقدم مجموعة بيانات ضخمة للصوت والصورة للتعرف على المتحدث تم جمعها من وسائل الإعلام المفتوحة المصدر. باستخدام خط أنابيب آلي بالكامل، قمنا بتدقيق VoxCeleb2 التي تحتوي على أكثر من مليون كلمة مقالية من أكثر من 6,000 متحدث. وهذا أكبر بمرات عديدة من أي مجموعة بيانات متاحة للجمهور في مجال التعرف على المتحدث.ثانياً، قمنا بتطوير ومقارنة نماذج الشبكات العصبية المت convoled (CNN) واستراتيجيات التدريب التي يمكنها التعرف بشكل فعال على الهويات من الصوت في ظروف مختلفة. النماذج التي تم تدريبها على مجموعة بيانات VoxCeleb2 تتفوق بشكل كبير على أداء الأعمال السابقة في مجموعة بيانات المعيار.注释:- "Convolutional Neural Network" 翻译为 "الشبكات العصبية المت convoled",但更常见的翻译是 "الشبكات العصبية المتلافهة" (Al-Shabakat Al-'Asabiyya Al-Mutalaafiha). 因此,建议使用 "الشبكات العصبية المتلافهة (CNN)" 以确保专业性和信息完整性。