HyperAIHyperAI
منذ 9 أيام

فصل توزيع التسميات للتمييز البصري ذي التوزيع الطويل

Youngkyu Hong, Seungju Han, Kwanghee Choi, Seokjun Seo, Beomsu Kim, Buru Chang
فصل توزيع التسميات للتمييز البصري ذي التوزيع الطويل
الملخص

يُطبّق البروتوكول الحالي لتقييم التعرف البصري على التوزيعات الطويلة الذيل (long-tailed) تدريب نموذج التصنيف على توزيع العلامات المصدر الطويل الذيل، ثم تقييم أداؤه على توزيع العلامات الهدف الموحد. ويعتبر هذا البروتوكول موضع شك من حيث الجدوى العملية، نظرًا لأن التوزيع الهدف قد يكون أيضًا طويل الذيل. لذلك، نُعرّف التعرف البصري طويل الذيل كمشكلة انزلاق العلامات (label shift)، حيث يكون توزيع العلامات الهدف مختلفًا عن توزيع العلامات المصدر. ومن بين التحديات الكبرى في التعامل مع مشكلة انزلاق العلامات، تداخل توزيع العلامات المصدر مع توقعات النموذج. في هذه الورقة، نركّز على فصل توزيع العلامات المصدر عن توقعات النموذج. نُقدّم أولًا طريقة أساسية بسيطة لكنها مهملة، تُطابق توزيع العلامات الهدف من خلال معالجة ما بعد النموذج (post-processing) لتنبؤات النموذج الذي تم تدريبه باستخدام خسارة التفاضل العشوائي (cross-entropy loss) ووظيفة سوتفماكس (Softmax). وعلى الرغم من أن هذه الطريقة تتفوّق على أحدث الطرق على مجموعات البيانات القياسية، إلا أنها يمكن تحسينها أكثر من خلال فصل توزيع العلامات المصدر عن توقعات النموذج مباشرةً أثناء مرحلة التدريب. وهكذا، نُقدّم طريقة جديدة تُسمى خسارة LAbel distribution DisEntangling (LADE)، المستندة إلى الحد الأقصى الأمثل لتمثيل دونسكير-فاريادهان (Donsker-Varadhan representation). تحقق LADE أداءً متفوّقًا على مستوى أحدث الطرق على مجموعات بيانات قياسية مثل CIFAR-100-LT وPlaces-LT وImageNet-LT وiNaturalist 2018. علاوةً على ذلك، تتفوّق LADE على الطرق الحالية على مختلف توزيعات العلامات الهدف المنزَلقة، مما يُظهر المرونة العامة لطريقتنا المقترحة.