HyperAIHyperAI
منذ 17 أيام

التوحيد الطيفي الفرعي لمعالجة البيانات الصوتية العصبية

Simyung Chang, Hyoungwoo Park, Janghoon Cho, Hyunsin Park, Sungrack Yun, Kyuwoong Hwang
التوحيد الطيفي الفرعي لمعالجة البيانات الصوتية العصبية
الملخص

تُستخدم الشبكات العصبية التلافيفية على نطاق واسع في مجالات التعلم الآلي المختلفة. في معالجة الصور، يمكن استخلاص السمات من خلال تطبيق التلافيف ثنائي الأبعاد على جميع الأبعاد المكانية للمدخلات. ومع ذلك، في حالة الصوت، تمتلك المدخلات في المجال الترددي، مثل مخطط ميل-спектروغرام (Mel-Spectrogram)، خصائص مختلفة وفريدة في الاتجاه الترددي. ولهذا السبب، هناك حاجة إلى طريقة تسمح لطبقة التلافيف ثنائية الأبعاد بالتعامل مع الاتجاه الترددي بشكل مختلف. في هذا العمل، نقدّم ما يُعرف بـ "التطبيع الفرعي الطيفي" (SubSpectral Normalization - SSN)، الذي يقوم بتقسيم بعد التردد للمدخلات إلى عدة مجموعات (أشرطة فرعية) ويُطبّق تطبيعًا مختلفًا لكل مجموعة. كما يحتوي SSN على تحويل تآلي (affine transformation) يمكن تطبيقه على كل مجموعة. تُزيل هذه الطريقة الانحراف بين الترددات أثناء تعلّم الشبكة لخصائص تأخذ بعين الاعتبار التردد. وقد لاحظنا في التجارب التي أجريت على بيانات الصوت أن SSN يمكنه تحسين أداء الشبكة بشكل فعّال.

التوحيد الطيفي الفرعي لمعالجة البيانات الصوتية العصبية | أحدث الأوراق البحثية | HyperAI