HyperAIHyperAI

Command Palette

Search for a command to run...

التوحيد الطيفي الفرعي لمعالجة البيانات الصوتية العصبية

Simyung Chang Hyoungwoo Park Janghoon Cho Hyunsin Park Sungrack Yun Kyuwoong Hwang

الملخص

تُستخدم الشبكات العصبية التلافيفية على نطاق واسع في مجالات التعلم الآلي المختلفة. في معالجة الصور، يمكن استخلاص السمات من خلال تطبيق التلافيف ثنائي الأبعاد على جميع الأبعاد المكانية للمدخلات. ومع ذلك، في حالة الصوت، تمتلك المدخلات في المجال الترددي، مثل مخطط ميل-спектروغرام (Mel-Spectrogram)، خصائص مختلفة وفريدة في الاتجاه الترددي. ولهذا السبب، هناك حاجة إلى طريقة تسمح لطبقة التلافيف ثنائية الأبعاد بالتعامل مع الاتجاه الترددي بشكل مختلف. في هذا العمل، نقدّم ما يُعرف بـ "التطبيع الفرعي الطيفي" (SubSpectral Normalization - SSN)، الذي يقوم بتقسيم بعد التردد للمدخلات إلى عدة مجموعات (أشرطة فرعية) ويُطبّق تطبيعًا مختلفًا لكل مجموعة. كما يحتوي SSN على تحويل تآلي (affine transformation) يمكن تطبيقه على كل مجموعة. تُزيل هذه الطريقة الانحراف بين الترددات أثناء تعلّم الشبكة لخصائص تأخذ بعين الاعتبار التردد. وقد لاحظنا في التجارب التي أجريت على بيانات الصوت أن SSN يمكنه تحسين أداء الشبكة بشكل فعّال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp