الانتباه متعدد الأسطح للنماذج البصرية من نوع التحويلة

أصبحت نماذج التحويل البصري (Vision Transformers) شائعة جدًا في الوقت الراهن بفضل أدائها المتميز في العديد من مهام الرؤية الحاسوبية، مثل تصنيف الصور وتمييز الحركات. وعلى الرغم من تحسين أدائها بشكل كبير من خلال تضمين تمثيلات وحدات مفصلة للغاية (patch embeddings) وهيكل هرمي، إلا أن هناك بحوثًا محدودة جدًا حول استغلال تمثيلات بيانات إضافية بهدف تحسين خريطة الانتباه الذاتي (self-attention map) في نموذج التحويل. ولحل هذه المشكلة، تم اقتراح آلية انتباه جديدة تُعرف بـ "الانتباه المتعدد العوامل متعدد الرؤوس" (multi-manifold multihead attention) في هذا العمل، وذلك كبديل للآلية الافتراضية للانتباه الذاتي في نموذج التحويل. تعتمد الآلية المقترحة على نمذجة فضاء المدخلات في ثلاث مناطق هندسية متميزة، هي: الفضاء الإقليدي (Euclidean)، والفضاء الموجب المتماثل (Symmetric Positive Definite)، وفضاء جراسمن (Grassmann)، مما يتيح الاستفادة من الخصائص الإحصائية والهندسية المختلفة للمدخلات لحساب خريطة انتباه دقيقة وغنية بالتفاصيل. وبهذه الطريقة، يمكن للآلية المقترحة توجيه نموذج التحويل البصري ليكون أكثر تركيزًا على السمات المهمة في الصورة، مثل المظهر واللون والملمس، مما يؤدي إلى تحسين نتائج التصنيف والتقسيم، كما أظهرت النتائج التجريبية على مجموعات بيانات معروفة.