HyperAIHyperAI
منذ 17 أيام

مُحَوِّل الدُّفَعَة: ابحث عن الانتباه في الدُّفَعَة

Myung Beom Her, Jisu Jeong, Hojoon Song, Ji-Hyeong Han
مُحَوِّل الدُّفَعَة: ابحث عن الانتباه في الدُّفَعَة
الملخص

تمثل تقنية التعرف على التعبيرات الوجهية (FER) اهتمامًا كبيرًا في مجال الرؤية الحاسوبية، خاصة في البيئات الواقعية مثل تفاعل الإنسان مع الحاسوب. ومع ذلك، فإن صور التعبيرات الوجهية تحتوي على عدم يقين يشمل عوامل مثل التغطية (الإغلاق)، والدقة المنخفضة، وتغيرات الوضعية (pose variation)، وتغيرات الإضاءة، بالإضافة إلى العنصر الذاتي (subjectivity) الذي قد يشمل تعبيرات لا تتطابق مع التسمية المستهدفة. نتيجة لذلك، تُنتج صورة واحدة مشوهة معلومات قليلة ولا يمكن الاعتماد عليها. وقد يؤدي هذا إلى تدهور كبير في أداء مهمة التعرف على التعبيرات الوجهية. ولحل هذه المشكلة، نقترح شبكة "مُحَوِّل الدُّفعة" (Batch Transformer - BT)، والتي تتضمن وحدة "الانتباه الدُّفَعي للصِّنف" (Class Batch Attention - CBA) المُقدَّمة حديثًا، بهدف منع التأقلم الزائد (overfitting) في البيانات الضوضائية، واستخلاص معلومات موثوقة من خلال التدريب على الميزات المستخلصة من عدة صور ضمن دفعة واحدة، بدلًا من الاعتماد على معلومات صورة واحدة فقط. كما نقترح أيضًا "الانتباه متعدد المستويات" (Multi-Level Attention - MLA) لمنع التأقلم الزائد مع الميزات المحددة، من خلال التقاط العلاقات بين المستويات المختلفة. في هذا البحث، نقدّم شبكة "مُحَوِّل الدُّفعة" (Batch Transformer Network - BTN) التي تدمج بين هذه المقترحات. أظهرت النتائج التجريبية على مجموعة متنوعة من مجموعات البيانات القياسية لـ FER أن الشبكة المقترحة (BTN) تتفوّق باستمرار على أحدث التقنيات في مجال التعرف على التعبيرات الوجهية. وتشير النتائج الممثلة إلى الإمكانات الكبيرة التي تمتلكها الشبكة المقترحة في مجال FER.

مُحَوِّل الدُّفَعَة: ابحث عن الانتباه في الدُّفَعَة | أحدث الأوراق البحثية | HyperAI