تحسين مجموعة الميزات لتنبؤ معدل النقر

تنقل نماذج توقع النقر (CTR) الميزات إلى متجهات خفية وتحدد التفاعلات الممكنة بين الميزات لتحسين الأداء بناءً على مجموعة الميزات المدخلة. لذلك، عند اختيار مجموعة ميزات مثلى، ينبغي أخذ تأثير كل ميزة وتفاعلها بعين الاعتبار. ومع ذلك، تركز معظم الدراسات السابقة إما على اختيار حقول الميزات أو تختار تفاعلات الميزات فقط بناءً على مجموعة ميزات ثابتة، مما يؤدي إلى تقييد مساحة البحث إلى حقول الميزات، وهي مساحة خشنة جدًا لتحديد الميزات الدقيقة، كما أن هذه الطرق لا تقوم بتصفية التفاعلات غير المفيدة، ما يزيد من تكاليف الحساب ويؤدي إلى تدهور أداء النموذج. أما الجانب الآخر، فيقوم بتحديد تفاعلات مفيدة من بين جميع الميزات المتاحة، مما ينتج عنه وجود العديد من الميزات الزائدة في مجموعة الميزات. في هذا البحث، نقترح طريقة جديدة تُسمى OptFS لمعالجة هذه المشكلات. ولتوحيد عملية اختيار الميزات وتفاعلات الميزات، نقوم بتحليل اختيار كل تفاعل ميزات إلى اختيار ميزتين مترابطتين. يؤدي هذا التحليل إلى جعل النموذج قابلاً للتدريب من النهاية إلى النهاية مع مختلف عمليات التفاعل بين الميزات. وباستخدام مساحة بحث على مستوى الميزة، نضع بوابة قابلة للتعلم لتحديد ما إذا كانت كل ميزة يجب أن تكون ضمن مجموعة الميزات. وبما أن مساحة البحث كبيرة جدًا، نطور خطة تدريب تُعرف بـ "التعلم المستمر" (learning-by-continuation) لتعلم هذه البوابات. وبالتالي، تُنتج OptFS مجموعة ميزات تحتوي فقط على الميزات التي تُحسّن نتائج التوقع النهائية. وقد أُجريت تجارب تقييم لـ OptFS على ثلاث مجموعات بيانات عامة، وأظهرت النتائج أن OptFS تستطيع تحسين مجموعات الميزات مما يعزز أداء النموذج ويقلل من تكاليف التخزين والحساب معًا.