منذ 9 أيام

التعرف على التوزيع الطويل الذيل من خلال موازنة الأوزان

Shaden Alshammari, Yu-Xiong Wang, Deva Ramanan, Shu Kong

الملخص

في العالم المفتوح الحقيقي، تميل البيانات إلى اتباع توزيعات فئوية طويلة الذيل، مما يُحفّز مشكلة التعرف على الفئات الطويلة الذيل (LTR) التي تم دراستها بشكل واسع. يؤدي التدريب البسيط إلى نماذج تُظهر تحيزًا تجاه الفئات الشائعة من حيث الدقة الأعلى. والحل الجوهري لمعالجة LTR يتمثل في تحقيق التوازن بين جوانب متعددة، تشمل توزيع البيانات، ووظائف الخسارة أثناء التدريب، وGradient أثناء التعلم. نستكشف اتجاهًا متعامدًا، وهو توازن الأوزان، مستندين إلى الملاحظة التجريبية التي تُظهر أن المصنّف المدرب بشكل بسيط يمتلك أوزانًا "اصطناعية" أكبر في القيمة المطلقة للفئات الشائعة (بسبب توفر كميات كبيرة من البيانات لتدريبها، على عكس الفئات النادرة). نستعرض ثلاث تقنيات لموازنة الأوزان: التطبيع L2، وتأخير الأوزان (weight decay)، وقيود MaxNorm. نشير أولًا إلى أن التطبيع L2 يُوازن "بشكل مثالي" الأوزان لكل فئة بحيث تكون قيمتها المطلقة مساوية للوحدة، لكن هذا القيود الصارمة قد تمنع الفئات من تعلم مصنّفات أفضل. في المقابل، يُعاقب تأخير الأوزان على الأوزان الأكبر بشكل أكبر، وبالتالي يُتعلم أوزان صغيرة متوازنة؛ في حين أن قيد MaxNorm يشجع على نمو الأوزان الصغيرة ضمن كرة نورمية، لكنه يضع حدًا أعلى للجميع بناءً على نصف القطر. تُظهر دراستنا الواسعة أن كلا الطريقتين يساهما في تعلم أوزان متوازنة، ويعززان بشكل كبير دقة LTR. وبشكل مفاجئ، يُظهر تأخير الأوزان، رغم أنه لم يُدرَس بشكل واسع في LTR، تحسنًا كبيرًا مقارنة بالعمل السابق. لذلك، نعتمد نموذج تدريب مزدوج المراحل ونُقدّم منهجًا بسيطًا لـ LTR: (1) تعلّم الميزات باستخدام خسارة التباديل (cross-entropy) من خلال ضبط تأخير الأوزان، و(2) تعلّم المصنّفات باستخدام خسارة متوازنة حسب الفئات من خلال ضبط تأخير الأوزان وقيود MaxNorm. يحقق منهجنا أفضل دقة حالية على خمسة معايير قياسية، ويُعدّ قاعدة معيارية مستقبلية لمشكلة التعرف على الفئات الطويلة الذيل.