ضجيج التسمية المرتبط بالمدخلات المعتمد على المدخلات في تصنيف الصور على نطاق واسع

غالبًا ما تحتوي مجموعات بيانات تصنيف الصور ذات الحجم الكبير على تسميات ملوثة. نتبع نهجًا احتماليًا منهجيًا لتمثيل ضجيج التسميات المعتمد على المدخلات، المعروف أيضًا بضجيج غير متجانس (heteroscedastic). نضع متغيرًا خفيًا متعدد المتغيرات يتبع توزيعًا طبيعيًا متعدد المتغيرات في الطبقة الخفية النهائية لشبكة عصبية تصنيفية. تُمثل المصفوفة التباينية لهذا المتغير الخفي عدم اليقين الألياتي الناتج عن ضجيج التسميات. نُظهر أن البنية التباينية المُتعلّمة تُمثّل المصادر المعروفة لضجيج التسميات بين الفئات الشبيهة من حيث المعنى والمتداخلة في الظهور معًا. مقارنةً بالتدريب القياسي للشبكات العصبية وأساليب المقارنة الأخرى، نُظهر تحسينًا ملحوظًا في الدقة على مجموعة Imagenet ILSVRC 2012 (79.3%، بزيادة 2.6%)، وImagenet-21k (47.0%، بزيادة 1.1%)، وJFT (64.7%، بزيادة 1.6%)، كما نُسجّل نتيجة جديدة على مستوى الحالة (state-of-the-art) على مجموعة WebVision 1.0 بتحقيق دقة 76.6% في التصنيف الأولي (top-1). تمتد هذه المجموعات من أكثر من مليون إلى أكثر من 300 مليون مثال تدريبي، ومن 1000 فئة إلى أكثر من 21000 فئة. يُعدّ أسلوبنا سهل الاستخدام، ونقدّم تنفيذًا يمكنه أن يُستبدل مباشرة بطبقة الاتصال الكامل (fully-connected layer) النهائية في تصنيفات عميقة.