فهم كيفية عمل أدوات التقليل من الأبعاد: نهج تجريبي لفك تشفير t-SNE وUMAP وTriMAP وPaCMAP لتصور البيانات

أظهرت تقنيات تقليل الأبعاد (DR) مثل t-SNE وUMAP وTriMAP أداءً مبهرًا في التصور على العديد من مجموعات البيانات الواقعية. وواجهت هذه الطرق دائمًا تناقضًا يتمثل في التناقض بين الحفاظ على البنية العالمية والحفاظ على البنية المحلية: حيث يمكن لهذه الطرق معالجة إحدى الحالتين، ولكن ليس كليهما في آنٍ واحد. في هذا العمل، يهدف الهدف الرئيسي إلى فهم الجوانب المهمة في طرق تقليل الأبعاد التي تسهم في الحفاظ على كل من البنية المحلية والبنية العالمية؛ إذ يصعب تصميم طريقة أفضل دون فهم حقيقي للخيارات التي نتخذها في خوارزمياتنا، وتأثيرها التجريبي على التمثيلات ذات الأبعاد المنخفضة التي تُنتجها. وبالنسبة لهدف الحفاظ على البنية المحلية، نقدّم مبادئ تصميم مفيدة لوظائف الخسارة في تقليل الأبعاد، استنادًا إلى فهمنا الجديد للآليات الكامنة وراء نجاح طرق تقليل الأبعاد. وبالنسبة لهدف الحفاظ على البنية العالمية، يُظهر تحليلنا أن اختيار المكونات التي ينبغي الحفاظ عليها له أهمية كبيرة. ونستفيد من هذه الرؤى لتصميم خوارزمية جديدة لتقليل الأبعاد تُسمى تقريب المنحنيات المُتحكم بها بالزوج (PaCMAP)، والتي تحافظ على كل من البنية المحلية والبنية العالمية. ويقدّم هذا العمل عدة رؤى غير متوقعة حول ما يجب اختياره وما ينبغي تجنبه عند بناء خوارزميات تقليل الأبعاد.