HyperAIHyperAI

Command Palette

Search for a command to run...

VoxCeleb2: التعرف العميق على المتحدث

Joon Son Chung Arsha Nagrani Andrew Zisserman

الملخص

هدف هذه الورقة هو التعرف على المتحدث في ظروف صاخبة وغير مقيدة. نقدم مساهمتين رئيسيتين. أولاً، نقدم مجموعة بيانات ضخمة للصوت والصورة للتعرف على المتحدث تم جمعها من وسائل الإعلام المفتوحة المصدر. باستخدام خط أنابيب آلي بالكامل، قمنا بتدقيق VoxCeleb2 التي تحتوي على أكثر من مليون كلمة مقالية من أكثر من 6,000 متحدث. وهذا أكبر بمرات عديدة من أي مجموعة بيانات متاحة للجمهور في مجال التعرف على المتحدث.ثانياً، قمنا بتطوير ومقارنة نماذج الشبكات العصبية المت convoled (CNN) واستراتيجيات التدريب التي يمكنها التعرف بشكل فعال على الهويات من الصوت في ظروف مختلفة. النماذج التي تم تدريبها على مجموعة بيانات VoxCeleb2 تتفوق بشكل كبير على أداء الأعمال السابقة في مجموعة بيانات المعيار.注释:- "Convolutional Neural Network" 翻译为 "الشبكات العصبية المت convoled",但更常见的翻译是 "الشبكات العصبية المتلافهة" (Al-Shabakat Al-'Asabiyya Al-Mutalaafiha). 因此,建议使用 "الشبكات العصبية المتلافهة (CNN)" 以确保专业性和信息完整性。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VoxCeleb2: التعرف العميق على المتحدث | مستندات | HyperAI