النماذج القائمة على الطاقة للانحدار الاحتمالي العميق

بينما يتم عادةً معالجة التصنيف القائم على التعلم العميق باستخدام نهج معياري، تُستخدم مجموعة واسعة من التقنيات للانحدار. في مجال الرؤية الحاسوبية، تُعد تقنية الانحدار القائمة على الثقة واحدة من أكثر هذه التقنيات شيوعًا، والتي تتضمن توقع قيمة ثقة لكل زوج إدخال-هدف (x,y). وعلى الرغم من النتائج المبهرة التي أظهرتها هذه الطريقة، إلا أنها تتطلب خيارات تصميمية مهمة تعتمد على المهمة، كما أن القيم المتنبأة للثقة لا تحمل معنى احتماليًا طبيعيًا. نعالج هذه المشكلات من خلال اقتراح طريقة انحدار عامة ومبسطة مفهوميًا، وتتمتع بمعني احتمالي واضح. في النهج المقترح، نُنشئ نموذجًا قائمة على الطاقة للكثافة الشرطية للهدف p(y|x)، باستخدام شبكة عصبية عميقة لتوقع الكثافة غير المُعيارية من الزوج (x,y). يتم تدريب هذا النموذج لـ p(y|x) من خلال تقليل مباشر لمعكوس الاحتمال السالب المرتبط به، المقرب باستخدام عينات مونت كارلو. أجرينا تجارب شاملة على أربع مهام انحدار في الرؤية الحاسوبية. وقد أظهرت النتائج أن نهجنا يتفوق على الانحدار المباشر، وكذلك على الطرق الاحتمالية والانحدار القائم على الثقة الأخرى. وبشكل مميز، حقق نموذجنا تحسنًا بنسبة 2.2% في مؤشر الدقة (AP) مقارنةً بـ Faster-RCNN في مهمة كشف الكائنات على مجموعة بيانات COCO، كما وضع سجلًا قياسيًا جديدًا في تتبع الصور عند تطبيقه لتقدير المربعات المحيطة (bounding box). على عكس الطرق القائمة على الثقة، أُظهر أيضًا أن نهجنا قابل للتطبيق مباشرة على مهام أكثر شمولًا مثل تقدير العمر واتجاه الرأس (head-pose). يتوفر الكود على الرابط: https://github.com/fregu856/ebms_regression.