HyperAIHyperAI
منذ 2 أشهر

شبكات العصبي المكممة بالناقلات لاكتشاف الوحدات الصوتية في تحدي ZeroSpeech 2020

Benjamin van Niekerk; Leanne Nortje; Herman Kamper
شبكات العصبي المكممة بالناقلات لاكتشاف الوحدات الصوتية في تحدي ZeroSpeech 2020
الملخص

في هذا البحث، نستكشف التكميم المتجهي لاكتشاف الوحدات الصوتية. من خلال الاستفادة من البيانات غير المصنفة، نهدف إلى تعلم تمثيلات مجزأة للكلام تفصل المحتوى الصوتي عن التفاصيل الخاصة بالمحاضر. نقترح نموذجين عصبيين لمعالجة هذا التحدي - كلاهما يستخدم التكميم المتجهي لتحويل الخصائص المستمرة إلى مجموعة محدودة من الرموز. النموذج الأول هو نوع من مكودِّي الاختلاف التلقائي المتجهي (VQ-VAE). يقوم VQ-VAE بتشفير الكلام إلى سلسلة من الوحدات المنفصلة قبل إعادة بناء الشكل الموجي للصوت. أما النموذج الثاني فيجمع بين التكميم المتجهي والترميز التنبؤي المقارن (VQ-CPC). الفكرة هي تعلم تمثيل للكلام عبر التنبؤ بالوحدات الصوتية المستقبلية. قمنا بتقييم النماذج على بيانات الإنجليزية والإندونيسية ضمن تحدي ZeroSpeech 2020. في اختبارات تمييز الهواتف ABX، أداء كلتا النماذج كان أفضل من جميع المشاركات في تحديات 2019 و2020، مع تحسن نسبي يزيد عن 30%. كما أدى النماذج بشكل تنافسي في مهمة تحويل الصوت اللاحقة. بين النموذجين، حقق VQ-CPC أداءً أفضل قليلاً بشكل عام وكان أسهل وأسرع في التدريب. أخيرًا، أظهرت التجارب الاستكشافية أن التكميم المتجهي هو رقبة الزجاجة الفعالة التي تجبر النماذج على إهمال معلومات المحاضر.

شبكات العصبي المكممة بالناقلات لاكتشاف الوحدات الصوتية في تحدي ZeroSpeech 2020 | أحدث الأوراق البحثية | HyperAI