منذ 17 أيام
VQ-Wav2Vec: التعلم الذاتي للتمثيلات الصوتية المنفصلة
Alexei Baevski, Steffen Schneider, Michael Auli

الملخص
نُقدّم vq-wav2vec لتعلم تمثيلات منفصلة لقطع الصوت من خلال مهمة تنبؤ سياقي ذاتية التدريب من نوع wav2vec. يستخدم الخوارزمية إما توزيع جومبل-سُوفت ماكس أو تجميع ك-متوسطات على الإنترنت لتمثيل التمثيلات الكثيفة بشكل منفصل. يمكّن التمثيل المنفصل من تطبيق خوارزميات من مجتمع معالجة اللغة الطبيعية (NLP) التي تتطلب مدخلات منفصلة مباشرة. تُظهر التجارب أن التدريب المسبق باستخدام BERT يحقق حالة جديدة من التميز في تصنيف صوتيات TIMIT وفي التعرف على الكلام في WSJ.