HyperAIHyperAI
منذ 2 أشهر

التعلم المضاد الفعال من ردود فعل البانديت

Yusuke Narita; Shota Yasui; Kohei Yata
التعلم المضاد الفعال من ردود فعل البانديت
الملخص

ما هي الطريقة الإحصائية الأكثر كفاءة لإجراء تقييم وتحسين خارج السياسة باستخدام بيانات الدفعة من ردود الفعل البانديت؟ بالنسبة للبيانات السجل التي تم إنشاؤها بواسطة خوارزميات البانديت السياقية، نعتبر مقدّرات غير متصلة (offline) لمتوسط المكافأة المتوقعة من سياسة مضادة للواقع (counterfactual). أظهرت مقدّراتنا أنها تمتلك أقل تباين ضمن فئة واسعة من المقدّرات، مما يحقق تخفيض التباين مقارنة بالمقدّرات القياسية. ثم نطبق هذه المقدّرات لتحسين تصميم الإعلانات لدى شركة إعلانية كبيرة. بشكل متسق مع النتيجة النظرية، تسمح لنا مقدّراتنا بتحسين الخوارزمية الحالية للبانديت بمزيد من الثقة الإحصائية مقارنة بالمعيار الرائد في هذا المجال.

التعلم المضاد الفعال من ردود فعل البانديت | أحدث الأوراق البحثية | HyperAI