HyperAIHyperAI

Command Palette

Search for a command to run...

تدريب كفاءة متحولات الصوت باستخدام تقنية Patchout

Khaled Koutini Jan Schlüter Hamid Eghbal-zadeh Gerhard Widmer

الملخص

النجاح الكبير للنماذج المستندة إلى المتحولات (Transformers) في معالجة اللغة الطبيعية (NLP) قد أدى إلى محاولات متعددة لتكيف هذه الهندسات مع مجالات أخرى مثل الرؤية والصوت. وقد أظهرت الأبحاث الحديثة أن المتحولات يمكن أن تتفوق على شبكات العصبونات التلافيفية (CNNs) في مهام الرؤية والصوت. ومع ذلك، فإن أحد العيوب الرئيسية للمتحولات، بالمقارنة مع CNNs المعروفة جيدًا، هو التعقيد الحاسوبي. في المتحولات، يزداد التعقيد الحاسوبي وتعقيد الذاكرة بشكل تربيعي مع طول الإدخال. ولذلك، تم بذل جهود مكثفة لتحسين المتحولات، ولكن غالبًا على حساب تدهور الأداء التنبؤي. في هذا البحث، نقترح طريقة جديدة لتحسين وتقييد المتحولات على طيف الصوت (Audio Spectrograms). لقد حققت النماذج المقترحة منا أداءً جديدًا رائدًا على Audioset ويمكن تدريبها على بطاقة رسوميات واحدة من الفئة الاستهلاكية. بالإضافة إلى ذلك، نقترح نموذج متحول يتفوق على CNNs من حيث الأداء وسرعة التدريب. الكود المصدر: https://github.com/kkoutini/PaSST


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp