HyperAIHyperAI
منذ 17 أيام

ضجيج التسمية المرتبط بالمدخلات المعتمد على المدخلات في تصنيف الصور على نطاق واسع

Mark Collier, Basil Mustafa, Efi Kokiopoulou, Rodolphe Jenatton, Jesse Berent
ضجيج التسمية المرتبط بالمدخلات المعتمد على المدخلات في تصنيف الصور على نطاق واسع
الملخص

غالبًا ما تحتوي مجموعات بيانات تصنيف الصور ذات الحجم الكبير على تسميات ملوثة. نتبع نهجًا احتماليًا منهجيًا لتمثيل ضجيج التسميات المعتمد على المدخلات، المعروف أيضًا بضجيج غير متجانس (heteroscedastic). نضع متغيرًا خفيًا متعدد المتغيرات يتبع توزيعًا طبيعيًا متعدد المتغيرات في الطبقة الخفية النهائية لشبكة عصبية تصنيفية. تُمثل المصفوفة التباينية لهذا المتغير الخفي عدم اليقين الألياتي الناتج عن ضجيج التسميات. نُظهر أن البنية التباينية المُتعلّمة تُمثّل المصادر المعروفة لضجيج التسميات بين الفئات الشبيهة من حيث المعنى والمتداخلة في الظهور معًا. مقارنةً بالتدريب القياسي للشبكات العصبية وأساليب المقارنة الأخرى، نُظهر تحسينًا ملحوظًا في الدقة على مجموعة Imagenet ILSVRC 2012 (79.3%، بزيادة 2.6%)، وImagenet-21k (47.0%، بزيادة 1.1%)، وJFT (64.7%، بزيادة 1.6%)، كما نُسجّل نتيجة جديدة على مستوى الحالة (state-of-the-art) على مجموعة WebVision 1.0 بتحقيق دقة 76.6% في التصنيف الأولي (top-1). تمتد هذه المجموعات من أكثر من مليون إلى أكثر من 300 مليون مثال تدريبي، ومن 1000 فئة إلى أكثر من 21000 فئة. يُعدّ أسلوبنا سهل الاستخدام، ونقدّم تنفيذًا يمكنه أن يُستبدل مباشرة بطبقة الاتصال الكامل (fully-connected layer) النهائية في تصنيفات عميقة.

ضجيج التسمية المرتبط بالمدخلات المعتمد على المدخلات في تصنيف الصور على نطاق واسع | أحدث الأوراق البحثية | HyperAI