HyperAIHyperAI
منذ 2 أشهر

تدريب كفاءة متحولات الصوت باستخدام تقنية Patchout

Koutini, Khaled ; Schlüter, Jan ; Eghbal-zadeh, Hamid ; Widmer, Gerhard
تدريب كفاءة متحولات الصوت باستخدام تقنية Patchout
الملخص

النجاح الكبير للنماذج المستندة إلى المتحولات (Transformers) في معالجة اللغة الطبيعية (NLP) قد أدى إلى محاولات متعددة لتكيف هذه الهندسات مع مجالات أخرى مثل الرؤية والصوت. وقد أظهرت الأبحاث الحديثة أن المتحولات يمكن أن تتفوق على شبكات العصبونات التلافيفية (CNNs) في مهام الرؤية والصوت. ومع ذلك، فإن أحد العيوب الرئيسية للمتحولات، بالمقارنة مع CNNs المعروفة جيدًا، هو التعقيد الحاسوبي. في المتحولات، يزداد التعقيد الحاسوبي وتعقيد الذاكرة بشكل تربيعي مع طول الإدخال. ولذلك، تم بذل جهود مكثفة لتحسين المتحولات، ولكن غالبًا على حساب تدهور الأداء التنبؤي. في هذا البحث، نقترح طريقة جديدة لتحسين وتقييد المتحولات على طيف الصوت (Audio Spectrograms). لقد حققت النماذج المقترحة منا أداءً جديدًا رائدًا على Audioset ويمكن تدريبها على بطاقة رسوميات واحدة من الفئة الاستهلاكية. بالإضافة إلى ذلك، نقترح نموذج متحول يتفوق على CNNs من حيث الأداء وسرعة التدريب. الكود المصدر: https://github.com/kkoutini/PaSST

تدريب كفاءة متحولات الصوت باستخدام تقنية Patchout | أحدث الأوراق البحثية | HyperAI