تعلم تمييز التمثيلات الصوتية العامة

نقدم COLA، وهي طريقة تدريب ذاتي مسبقة لتعلم تمثيل عام للصوت. تعتمد منهجيتنا على التعلم المقارن: فهي تتعلم تمثيلاً يُعيِّن درجة تشابه عالية للمقاطع الصوتية المستخرجة من نفس التسجيل بينما يُعيِّن درجة تشابه أقل للمقاطع المستخرجة من تسجيلات مختلفة. نبني على الإنجازات الحديثة في التعلم المقارن لرؤية الحاسوب والتعلم التعزيزي لتصميم نموذج ذاتي مراقب خفيف الوزن وسهل التنفيذ للصوت. نقوم بتدريب المتجهات المضمنة على قاعدة بيانات Audioset الضخمة ونقل هذه التمثيلات إلى 9 مهام تصنيف متنوعة، بما في ذلك الكلام، الموسيقى، أصوات الحيوانات، والمشهد الصوتي (acoustic scenes). نوضح أن طرقتنا، رغم بساطتها، تتفوق بشكل كبير على الأنظمة الذاتية المراقبة السابقة. كما نجري دراسات تقليصية (ablation studies) لتحديد الخيارات التصميمية الرئيسية ونشر مكتبة لتدريب وتuning نماذج COLA.