HyperAIHyperAI
منذ 17 أيام

Attend and Guide (AG-Net): شبكة عميقة قائمة على الانتباه تُوجّه بواسطة نقاط المفتاح للتصنيف الصوتي

Asish Bera, Zachary Wharton, Yonghuai Liu, Nik Bessis, Ardhendu Behera
Attend and Guide (AG-Net): شبكة عميقة قائمة على الانتباه تُوجّه بواسطة نقاط المفتاح للتصنيف الصوتي
الملخص

يقدم هذا البحث آلية انتباه قائمة على النقاط المميزة (keypoints-based attention mechanism) لتمييز الصور الثابتة. وقد أظهرت الشبكات العصبية العميقة ذات التحويلات التلافيفية (Deep Convolutional Neural Networks - CNNs) نجاحًا كبيرًا في التعرف على الصور ذات الفئات المميزة، ولكن أداؤها في التمييز بين التغيرات الدقيقة لا يزال غير متساوٍ مع المستوى المطلوب. ولحل هذه المشكلة، نقترح نموذجًا CNN يُدرَّب بشكل منتهي إلى منتهى (end-to-end)، يتعلم سمات ذات معنى تربط بين التغيرات الدقيقة من خلال آلية انتباه جديدة نقترحها. تعتمد هذه الآلية على استخلاص الهياكل المكانية في الصور من خلال تحديد مناطق ذات معنى (Semantic Regions - SRs) وتوزيعاتها المكانية، وقد أُثبت أن هذا العنصر يُعدّ المحور الأساسي في نمذجة التغيرات الدقيقة في الصور. ونقوم بتحديد هذه المناطق تلقائيًا من خلال تجميع النقاط المميزة المكتشفة في الصورة المعطاة. ونقيّم "القيمة المفيدة" لهذه المناطق لتمييز الصور باستخدام آلية انتباه مبتكرة تركز على الأجزاء الأكثر صلة بالمهام المحددة. ينطبق هذا الإطار على مهام التمييز التقليدي والدقيق للصور، ولا يتطلب مناطق مُعلّمة يدويًا (مثل مربعات حدودية لجزء من الجسم أو الأشياء، إلخ) أثناء التدريب أو التنبؤ. علاوةً على ذلك، يمكن دمج آلية الانتباه المُشَغَّلة بالنقاط المميزة بسهولة في النماذج الحالية من الشبكات العصبية العميقة. وقد تم تقييم الإطار على ستة مجموعات بيانات معيارية متنوعة، حيث تفوق النموذج الأداء المتميز في المجالات الحالية بفارق كبير، وذلك باستخدام مجموعات بيانات: Distracted Driver V1 (دقة: 3.39٪)، Distracted Driver V2 (دقة: 6.58٪)، Stanford-40 Actions (متوسط دقة التصنيف: 2.15٪)، People Playing Musical Instruments (متوسط دقة التصنيف: 16.05٪)، Food-101 (دقة: 6.30٪)، وCaltech-256 (دقة: 2.59٪).

Attend and Guide (AG-Net): شبكة عميقة قائمة على الانتباه تُوجّه بواسطة نقاط المفتاح للتصنيف الصوتي | أحدث الأوراق البحثية | HyperAI