شبكات العصبي المكممة بالناقلات لاكتشاف الوحدات الصوتية في تحدي ZeroSpeech 2020

في هذا البحث، نستكشف التكميم المتجهي لاكتشاف الوحدات الصوتية. من خلال الاستفادة من البيانات غير المصنفة، نهدف إلى تعلم تمثيلات مجزأة للكلام تفصل المحتوى الصوتي عن التفاصيل الخاصة بالمحاضر. نقترح نموذجين عصبيين لمعالجة هذا التحدي - كلاهما يستخدم التكميم المتجهي لتحويل الخصائص المستمرة إلى مجموعة محدودة من الرموز. النموذج الأول هو نوع من مكودِّي الاختلاف التلقائي المتجهي (VQ-VAE). يقوم VQ-VAE بتشفير الكلام إلى سلسلة من الوحدات المنفصلة قبل إعادة بناء الشكل الموجي للصوت. أما النموذج الثاني فيجمع بين التكميم المتجهي والترميز التنبؤي المقارن (VQ-CPC). الفكرة هي تعلم تمثيل للكلام عبر التنبؤ بالوحدات الصوتية المستقبلية. قمنا بتقييم النماذج على بيانات الإنجليزية والإندونيسية ضمن تحدي ZeroSpeech 2020. في اختبارات تمييز الهواتف ABX، أداء كلتا النماذج كان أفضل من جميع المشاركات في تحديات 2019 و2020، مع تحسن نسبي يزيد عن 30%. كما أدى النماذج بشكل تنافسي في مهمة تحويل الصوت اللاحقة. بين النموذجين، حقق VQ-CPC أداءً أفضل قليلاً بشكل عام وكان أسهل وأسرع في التدريب. أخيرًا، أظهرت التجارب الاستكشافية أن التكميم المتجهي هو رقبة الزجاجة الفعالة التي تجبر النماذج على إهمال معلومات المحاضر.