HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم المضاد الفعال من ردود فعل البانديت

Yusuke Narita Shota Yasui Kohei Yata

الملخص

ما هي الطريقة الإحصائية الأكثر كفاءة لإجراء تقييم وتحسين خارج السياسة باستخدام بيانات الدفعة من ردود الفعل البانديت؟ بالنسبة للبيانات السجل التي تم إنشاؤها بواسطة خوارزميات البانديت السياقية، نعتبر مقدّرات غير متصلة (offline) لمتوسط المكافأة المتوقعة من سياسة مضادة للواقع (counterfactual). أظهرت مقدّراتنا أنها تمتلك أقل تباين ضمن فئة واسعة من المقدّرات، مما يحقق تخفيض التباين مقارنة بالمقدّرات القياسية. ثم نطبق هذه المقدّرات لتحسين تصميم الإعلانات لدى شركة إعلانية كبيرة. بشكل متسق مع النتيجة النظرية، تسمح لنا مقدّراتنا بتحسين الخوارزمية الحالية للبانديت بمزيد من الثقة الإحصائية مقارنة بالمعيار الرائد في هذا المجال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp