QCS: تحسين الميزات من التشابه المتقاطع الرباعي لتمييز التعبيرات الوجهية

التعرف على التعبيرات الوجهية يواجه تحديات عندما يتم خلط السمات المهمة المصنفة في قواعد البيانات مع السمات الزائدة غير المصنفة. في هذا البحث، نقدم تقنية الانتباه المشابهة المتقاطعة (CSA) لاستخراج معلومات جوهرية أكثر غنى من أزواج الصور، مما يتجاوز الحدود التي تظهر عند تطبيق انتباه المنتج النقطي المُقَيَّد (Scaled Dot-Product Attention) في ViT مباشرة لحساب التشابه بين صورتين مختلفتين. بناءً على CSA، نقوم بتقليل الاختلافات داخل الفئة وزيادة الاختلافات بين الفئات على مستوى السمات الدقيقة من خلال التفاعلات بين فروع متعددة. يتم استخدام التقطير البواقي التبايني لنقل المعلومات التي تم تعلمها في الوحدة المتقاطعة مرة أخرى إلى الشبكة الأساسية. لقد صممنا بمهارة شبكة ذات أربعة فروع متماثلة محورياً، باسم الشبكة المشابهة المتقاطعة رباعية الفروع (QCS)، والتي تخفف من النزاعات المتدرجة الناجمة عن الوحدة المتقاطعة وتحقق تدريباً متوازناً ومستقراً. يمكنها استخراج السمات المميزة بشكل متكيف بينما تقوم بعزل السمات الزائدة. تتواجد وحدات الانتباه المتقاطع أثناء التدريب، ويُحتفظ فقط بفرع أساسي واحد أثناء الاستدلال، مما لا يؤدي إلى زيادة وقت الاستدلال. تُظهر التجارب الواسعة أن الطريقة المقترحة لدينا تحقق أداءً رائداً على عدة قواعد بيانات للتعبيرات الوجهية (FER).