التعلم التعزيزي ذي البنية الهرمية لتكوين القصص البصرية المتماسكة موضوعياً

نقترح نهجًا للتعلم التعزيزي المُهيكل تراتبيًا لمعالجة تحديات التخطيط لإنتاج قصص متعددة الجمل بشكل متماسك في مهمة السرد البصري. ضمن إطارنا، يتم تقسيم مهمة إنشاء قصة بناءً على سلسلة من الصور عبر محكيين (decoders) تراتبيين على مستويين. يقوم المحكي العالي المستوى ببناء خطة بإنشاء مفهوم دلالي (أي موضوع) لكل صورة في السلسلة. أما المحكي المنخفض المستوى فيقوم بإنشاء جملة لكل صورة باستخدام شبكة تركيبية دلالية، والتي تقوم بربط عملية إنشاء الجملة بشكل فعال تحت شرط الموضوع. يتم تدريب المحكيين معًا بطريقة شاملة ونهاية إلى نهاية باستخدام التعلم التعزيزي. نقيم نموذجنا على مجموعة بيانات السرد البصري (VIST). تظهر النتائج التجريبية من التقييمات الآلية والبشرية أن التدريب التعزيزي المُهيكل تراتبيًا المقترح يحقق أداءً أفضل بكثير مقارنة بنموذج قوي للتعلم التعزيزي العميق المستوي الواحد.