LHGNN: شبكات العصبونات الرسومية من الرتبة المحلية الأعلى لتصنيف وتصنيع الوسم للصوت

لقد أحدثت نماذج الترانسفورمر ثورة في مهام معالجة الصوت، حيث استخدمت آليات الانتباه الذاتي للكشف عن الأنماط والروابط المعقدة داخل بيانات الصوت. ومع ذلك، فإن تركيزها على التفاعلات الثنائية يحد من قدرتها على معالجة العلاقات من الرتب الأعلى التي تعتبر ضرورية لتحديد الأشياء الصوتية المميزة. لمعالجة هذه القصور، يقدم هذا البحث شبكة العصبونات الرسومية المحلية من الرتب الأعلى (LHGNN)، وهي نموذج يستند إلى الرسوم البيانية ويحسن فهم الخصائص من خلال دمج معلومات الجوار المحلي مع البيانات من الرتب الأعلى المستخرجة من مجموعات تجميع C-متوسط الضبابية (Fuzzy C-Means Clusters). وقد أظهر تقييم النموذج على ثلاثة مجموعات بيانات صوتية متاحة للعامة أنه يتفوق على نماذج الترانسفورمر في جميع المقاييس بينما يعمل باستخدام عدد أقل بكثير من المعلمات. علاوة على ذلك، أثبتت LHGNN ميزة واضحة في السيناريوهات التي تفتقر إلى التدريب المسبق باستخدام ImageNet، مما يؤكد فعاليتها وكفاءتها في البيئات التي لا تحتوي على كميات كبيرة من بيانات التدريب المسبقة.