تعلم تمثيلات متنوعة وتمييزية من خلال مبدأ تقليل معدل الترميز الأقصى

للحصول على الهياكل منخفضة الأبعاد الجوهرية من البيانات عالية الأبعاد التي تميز الفئات عن بعضها بقوة، نقترح مبدأ تقليل معدل الترميز الأقصى ($\text{MCR}^2$)، وهو مقياس نظري معلوماتي يُعدّل الفرق في معدل الترميز بين البيانات الكلية ومجاميع كل فئة على حدة. نوضح علاقاته مع معظم الإطارات الحالية مثل التباين العابر (cross-entropy)، وحافة المعلومات (information bottleneck)، وزيادة المعلومات (information gain)، والتعلم المُنقبض (contractive learning)، والتعلم المُقابل (contrastive learning)، ونقدم ضمانات نظرية لتعلم ميزات متنوعة وتمييزية. يمكن حساب معدل الترميز بدقة من عينات منتهية لتوافقيات تشبه الفضاءات المُنخفضة (degenerate subspace-like distributions)، ويمكنه تعلم تمثيلات جوهرية في بيئات مراقبة، ذات مراقبة، وغير مراقبة بأسلوب موحد. من الناحية التجريبية، تُظهر التمثيلات التي تُتعلم باستخدام هذا المبدأ وحده قوة تحمل أعلى بكثير تجاه تلوث التسميات في التصنيف مقارنةً بالتسميات التي تُتعلم باستخدام التباين العابر، ويمكنها تحقيق نتائج من الطراز الأول في تجميع البيانات المختلطة من خلال ميزات غير متغيرة تُتعلم ذاتيًا.