HyperAI

الملخص

ما هي الطريقة الإحصائية الأكثر كفاءة لإجراء تقييم وتحسين خارج السياسة باستخدام بيانات الدفعة من ردود الفعل البانديت؟ بالنسبة للبيانات السجل التي تم إنشاؤها بواسطة خوارزميات البانديت السياقية، نعتبر مقدّرات غير متصلة (offline) لمتوسط المكافأة المتوقعة من سياسة مضادة للواقع (counterfactual). أظهرت مقدّراتنا أنها تمتلك أقل تباين ضمن فئة واسعة من المقدّرات، مما يحقق تخفيض التباين مقارنة بالمقدّرات القياسية. ثم نطبق هذه المقدّرات لتحسين تصميم الإعلانات لدى شركة إعلانية كبيرة. بشكل متسق مع النتيجة النظرية، تسمح لنا مقدّراتنا بتحسين الخوارزمية الحالية للبانديت بمزيد من الثقة الإحصائية مقارنة بالمعيار الرائد في هذا المجال.

الملخص

Yusuke Narita Shota Yasui Kohei Yata

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yusuke Narita Shota Yasui Kohei Yata

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yusuke Narita Shota Yasui Kohei Yata

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التعلم المضاد الفعال من ردود فعل البانديت

Yusuke Narita Shota Yasui Kohei Yata

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التعلم المضاد الفعال من ردود فعل البانديت

Yusuke Narita Shota Yasui Kohei Yata

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التعلم المضاد الفعال من ردود فعل البانديت

Yusuke Narita Shota Yasui Kohei Yata

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters