المحولات البصرية الزائدية: دمج التحسينات في التعلم القياسي

تهدف التعلم القياسي إلى تعلُّم نموذج مميّز للغاية يشجع على قرب التمثيلات (الإدراجات) للتصنيفات المتشابهة في المسافة المختارة، ويدفعها بعيدًا عن بعضها بالنسبة للتصنيفات غير المتشابهة. وعادةً ما يتبع هذا النهج استخدام مشفر (Encoder) لاستخراج التمثيلات، مع دالة خسارة تعتمد على المسافة لتوحيد التمثيلات — غالبًا ما تُستخدم المسافة الإقليدية. وقد ظهر اهتمام متزايد بتعلم التمثيلات في الفضاءات الزائدية (Hyperbolic)، مما يشير إلى أن الهندسة الزائدية قد تكون مفيدة لتمثيل البيانات الطبيعية. واتباعًا لهذا الاتجاه، نقترح نموذجًا جديدًا قائمًا على الفضاء الزائد لتعلم القياس. وجوهر طريقتنا يتمثل في استخدام نموذج تحويلة بصرية (Vision Transformer) تُرَمَّز تمثيلاته الناتجة في الفضاء الزائد. وتُحسَّن هذه التمثيلات مباشرة باستخدام دالة خسارة معدَّلة من نوع الترميز المزدوج (Pairwise Cross-Entropy). وقد قمنا بتقييم النموذج المقترح باستخدام ستة صيغ مختلفة على أربع مجموعات بيانات، وحقق أداءً جديدًا يُعدّ الأفضل في مجاله. ويجدر بالذكر أن الكود المصدري متوفر عبر الرابط: https://github.com/htdt/hyp_metric.