تهدف التصنيف البصري الدقيق (FGVC) إلى التعرف تلقائيًا على الكائنات من فئات فرعية مختلفة. وعلى الرغم من الاهتمام الكبير الذي أثاره هذا المجال من قبل الأوساط الأكاديمية والصناعية، فإنه يظل مهمة صعبة بسبب الفروق البصرية الدقيقة بين الفئات المختلفة. أصبحت تقنيات تجميع الميزات عبر الطبقات المختلفة والتعلم الزوجي بين الصور هي السائدة في تحسين أداء التصنيف البصري الدقيق من خلال استخلاص ميزات مميزة تخص الفئة. ومع ذلك، تظل هذه الأساليب غير فعّالة في استغلال المعلومات عبر الطبقات بالكامل بسبب الاستراتيجيات البسيطة لتجميع الميزات، كما أن الأساليب الحالية للتعلم الزوجي تفشل في استكشاف التفاعلات الطويلة المدى بين الصور المختلفة. لمعالجة هذه المشكلات، نقترح شبكة جديدة تُسمى شبكة تعزيز التوافق (AENet)، تتضمن تزامنًا على مستويين: التزامن عبر الطبقات (CLA) والتزامن بين الصور (CIA). يُستغل وحدة CLA العلاقة بين المعلومات المكانية على الطبقات المنخفضة والمعلومات الدلالية على الطبقات العالية، مما يساهم في تجميع الميزات عبر الطبقات وتحسين قدرة تمثيل الميزات للصور المدخلة. كما تم إدخال وحدة CIA الجديدة لإنتاج خريطة ميزات متماثلة، والتي يمكنها تعزيز المعلومات ذات الصلة وقمع المعلومات غير ذات الصلة عبر المنطقة المكانية بأكملها. تعتمد طريقة عملنا على افتراض أساسي مفاده أن خريطة الميزات المتماثلة يجب أن تكون أقرب إلى مدخلات وحدة CIA عندما تنتمي إلى نفس الفئة. وعليه، تم إنشاء دالة فقدان الترابط الدلالي (Semantic Affinity Loss) لضبط عملية تزامن الميزات داخل كل كتلة CIA. أظهرت النتائج التجريبية على أربع مجموعات بيانات صعبة أن الشبكة المقترحة AENet تحقق أداءً متقدمًا جدًا مقارنة بالأساليب السابقة.