UDRN: شبكة عصبية لتقليل الأبعاد الموحّدة لاختيار الميزات وتصور الميزات

تُحوّل تقنية التقليل البعدي (Dimensional Reduction - DR) البيانات عالية الأبعاد إلى فضاء لاتيني أصغر بعدًا، مع تقليل دالة التحسين المحددة مسبقًا. وعادةً ما تندرج أساليب التقليل البعدي ضمن نوعين رئيسيين: اختيار الميزات (Feature Selection - FS) وتصور الميزات (Feature Projection - FP). يركّز اختيار الميزات على اختيار مجموعة حرجة من الأبعاد، لكنه يحمل خطر تدمير توزيع البيانات (الهيكل). أما تصوير الميزات، فيجمع جميع الميزات المدخلة في فضاء أصغر بعدًا، بهدف الحفاظ على هيكل البيانات، لكنه يفتقر إلى الوضوح التفسيري والكثافة النادرة (sparsity). كانت هذه النوعان FS وFP في الماضي يُنظر إليهما على أنهما فئتان غير متوافقتين، مما منع دمجهما ضمن إطار موحد متناغم. نقترح أن يكون النهج المثالي لتقليل البعد هو دمج كلا النوعين FS وFP ضمن إطار موحد متكامل للتعلم المتعدّد الأبعاد (manifold learning)، يُنفّذ بشكل متكامل من البداية إلى النهاية، ويُجري في آنٍ واحد اكتشاف الميزات الأساسية مع الحفاظ على العلاقات الجوهرية بين العينات في الفضاء اللاتيني. في هذه الدراسة، نطوّر إطارًا موحدًا يُسمّى الشبكة العصبية لتقليل البعد الموحّد (Unified Dimensional Reduction Neural-network - UDRN)، الذي يدمج اختيار الميزات وتصورها بطريقة متوافقة ومتسلسلة (end-to-end). ونُحسّن هيكل الشبكة العصبية من خلال تنفيذ مهام اختيار الميزات وتصورها بشكل منفصل باستخدام شبكتين فرعيتين متتاليتين. علاوةً على ذلك، صممنا تقنيات تكبير البيانات (data augmentation) ضمن عملية التقليل البعدي، لتحسين قدرة الطريقة على التعميم عند التعامل مع مجموعات بيانات ذات عدد كبير جدًا من الميزات، كما صممنا دوال خسارة (loss functions) قادرة على التفاعل مع هذه التقنيات. وقد أظهرت النتائج التجريبية الواسعة على أربع مجموعات بيانات صورية وأربع مجموعات بيانات بيولوجية، بما في ذلك بيانات عالية جدًا في البعد، ميزة UDRN مقارنة بالأساليب الحالية (FS، FP، ونظام تدفق FS&FP)، خاصةً في المهام اللاحقة مثل التصنيف والتصور.