لا توجد مقاييس مثالية: التعلم المكافئ للثواب في سرد القصص البصرية

رغم تحقيق نتائج مثيرة للإعجاب في تسمية الصور، فإن مهمة إنشاء قصص مجردة من سلاسل الصور لا تزال مشكلة قليلة الاستكشاف. تختلف القصص عن التسميات في أنها تتضمن أساليب لغوية أكثر تعبيراً وتحتوي على العديد من المفاهيم الخيالية التي لا تظهر في الصور. لذلك، فإن هذه المهمة تمثل تحدياً للخوارزميات المقلدة للسلوك. بالإضافة إلى ذلك، بسبب حدود المقاييس الآلية لتقييم جودة القصص، فإن طرق التعلم التعزيزي مع المكافآت المصممة يدوياً تواجه صعوبات أيضاً في تحقيق زيادة شاملة في الأداء. ولذلك، نقترح إطار عمل التعلم المعادي للمكافأة (Adversarial REward Learning - AREL) لتعلم دالة مكافأة ضمنية من العروض البشرية، ومن ثم تعظيم البحث عن السياسة باستخدام دالة المكافأة المُتعلَّمة. رغم أن التقييم الآلي يشير إلى زيادة طفيفة في الأداء مقارنة بالطرق الرائدة (state-of-the-art - SOTA) في تقليد سلوك الخبراء، إلا أن التقييم البشري يوضح أن نهجنا يحقق تحسيناً كبيراً في إنشاء قصص أكثر شبهاً بالبشر مقارنة بأنظمة SOTA.