BBN: شبكة فرعية ثنائية مع تعلم تراكمي للتعرف البصري على التوزيعات الطويلة الذيل

تركز عملنا على معالجة مهمة التعرف البصري الصعبة ولكن الطبيعية الناتجة عن توزيع البيانات طويل الذيل (أي أن فئات قليلة تمثل معظم البيانات، بينما تمتلك معظم الفئات عددًا ضئيلًا جدًا من العينات). في الأدبيات، تُعد استراتيجيات إعادة توازن الفئات (مثل إعادة الوزن وإعادة العينة) من الأساليب البارزة والفعالة التي اقترحها الباحثون لتخفيف التوازن المتطرف في سياق المشكلات ذات التوزيع الطويل الذيل. في هذه الورقة، نُكتشف أولًا أن الأداء المرضي في الدقة التعرفية الناتجة عن هذه الأساليب يُعزى إلى قدرتها على تعزيز تعلم المصنف في الشبكات العميقة بشكل كبير. ومع ذلك، فإنها في الوقت نفسه تُحدث تلفًا غير متوقع في القدرة التمثيلية للسمات العميقة المُتعلّمة إلى حد ما. لذلك، نقترح شبكة ثنائية الفروع الموحدة (BBN) التي تُعنى بتعلم التمثيل وتعلم المصنف في آن واحد، حيث تقوم كل فرع بتأدية وظيفته الخاصة بشكل منفصل. وبشكل خاص، يتم تزويد نموذج BBN باستراتيجية تعلم تراكمية جديدة، تم تصميمها لتعلم الأنماط الشاملة أولًا، ثم الانتباه تدريجيًا إلى البيانات الضعيفة (الذيل). وتدعم التجارب الواسعة على أربع مجموعات بيانات معيارية، بما في ذلك مجموعة iNaturalist الضخمة، أن BBN المقترح يمكنه التفوق بشكل ملحوظ على الطرق الرائدة حاليًا. علاوة على ذلك، تُظهر تجارب التحقق صحة كلا الاكتشاف الأولي وفعالية التصاميم المخصصة في BBN لمعالجة المشكلات ذات التوزيع الطويل الذيل. وقد حصلت طريقةنا على المركز الأول في مسابقة تصنيف الأنواع على نطاق واسع iNaturalist 2019، كما أن كودنا مفتوح المصدر ويمكن الوصول إليه عبر الرابط التالي: https://github.com/Megvii-Nanjing/BBN.