HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات العصبي المكممة بالناقلات لاكتشاف الوحدات الصوتية في تحدي ZeroSpeech 2020

Benjamin van Niekerk Leanne Nortje Herman Kamper

الملخص

في هذا البحث، نستكشف التكميم المتجهي لاكتشاف الوحدات الصوتية. من خلال الاستفادة من البيانات غير المصنفة، نهدف إلى تعلم تمثيلات مجزأة للكلام تفصل المحتوى الصوتي عن التفاصيل الخاصة بالمحاضر. نقترح نموذجين عصبيين لمعالجة هذا التحدي - كلاهما يستخدم التكميم المتجهي لتحويل الخصائص المستمرة إلى مجموعة محدودة من الرموز. النموذج الأول هو نوع من مكودِّي الاختلاف التلقائي المتجهي (VQ-VAE). يقوم VQ-VAE بتشفير الكلام إلى سلسلة من الوحدات المنفصلة قبل إعادة بناء الشكل الموجي للصوت. أما النموذج الثاني فيجمع بين التكميم المتجهي والترميز التنبؤي المقارن (VQ-CPC). الفكرة هي تعلم تمثيل للكلام عبر التنبؤ بالوحدات الصوتية المستقبلية. قمنا بتقييم النماذج على بيانات الإنجليزية والإندونيسية ضمن تحدي ZeroSpeech 2020. في اختبارات تمييز الهواتف ABX، أداء كلتا النماذج كان أفضل من جميع المشاركات في تحديات 2019 و2020، مع تحسن نسبي يزيد عن 30%. كما أدى النماذج بشكل تنافسي في مهمة تحويل الصوت اللاحقة. بين النموذجين، حقق VQ-CPC أداءً أفضل قليلاً بشكل عام وكان أسهل وأسرع في التدريب. أخيرًا، أظهرت التجارب الاستكشافية أن التكميم المتجهي هو رقبة الزجاجة الفعالة التي تجبر النماذج على إهمال معلومات المحاضر.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شبكات العصبي المكممة بالناقلات لاكتشاف الوحدات الصوتية في تحدي ZeroSpeech 2020 | مستندات | HyperAI