منذ 2 أشهر

حول تدريب Mixup: تحسين الت head="-Calibration" والتوقعات غير المؤكدة لشبكات العصبونات العميقة

Sunil Thulasidasan; Gopinath Chennupati; Jeff Bilmes; Tanmoy Bhattacharya; Sarah Michalak

الملخص

مزيج (Mixup) هو طريقة تم اقتراحها حديثًا لتدريب الشبكات العصبية العميقة، حيث يتم إنشاء عينات إضافية أثناء التدريب من خلال الجمع المحدب لزوجين عشوائيين من الصور وتصنيفاتهما المرتبطة. رغم بساطة تنفيذها، أثبتت أنها طريقة فعالة بشكل مفاجئ للتوسيع البيانات في تصنيف الصور: تظهر الشبكات العصبية العميقة التي تم تدريبها باستخدام مزيج زيادة ملحوظة في أداء التصنيف على عدد من مقاييس تصنيف الصور. في هذا البحث، نناقش جانبًا لم يتم التعامل معه سابقًا في تدريب مزيج -- وهو التحديد والشكوك التنبؤية للنماذج التي تم تدريبها باستخدام مزيج. نجد أن الشبكات العصبية العميقة التي تم تدريبها باستخدام مزيج تكون أكثر تحديدًا بشكل كبير -- أي أن النقاط الناتجة عن دالة softmax تكون مؤشرات أفضل بكثير على الاحتمال الفعلي للتنبؤ الصحيح -- مقارنة بالشبكات العصبية العميقة التي تم تدريبها بطريقة تقليدية. نجري تجارب على عدد من هياكل تصنيف الصور ومعطيات -- بما في ذلك قواعد بيانات كبيرة مثل ImageNet -- ونجد أن هذا هو الحال. بالإضافة إلى ذلك، نجد أن مجرد خلط الخصائص لا يؤدي إلى نفس فائدة التحديد وأن تسوية التصنيفات في تدريب مزيج يلعب دورًا مهمًا في تحسين التحديد. أخيرًا، نلاحظ أيضًا أن الشبكات العصبية العميقة التي تم تدريبها باستخدام مزيج تكون أقل عرضة للتنبؤات المفرطة الثقة في البيانات خارج التوزيع وفي البيانات ذات الضوضاء العشوائية. نستنتج أن الثقة الزائدة المعتادة التي يُظهرها الشبكات العصبية، حتى على البيانات ضمن التوزيع، ربما تكون نتيجة لتدريبها باستخدام تصنيفات صلبة، مما يشير إلى استخدام مزيج في المهام التصنيفية حيث يكون الشك التنبؤي مصدر قلق كبير.