vor 2 Monaten

Keine Metriken sind perfekt: Widersprüchliches Belohnungslernen für visuelle Geschichtenerzählung

Xin Wang; Wenhu Chen; Yuan-Fang Wang; William Yang Wang

Abstract

Obwohl beeindruckende Ergebnisse im Bereich der visuellen Bildunterschriften erzielt wurden, bleibt die Aufgabe, aus Fotoströmen abstrakte Geschichten zu generieren, ein wenig untersuchtes Problem. Im Gegensatz zu Bildunterschriften haben Geschichten expressivere Sprachstile und enthalten viele imaginäre Konzepte, die nicht in den Bildern erscheinen. Dies stellt Herausforderungen für Verhaltensklonierungsalgorithmen dar. Zudem führen die Einschränkungen automatisierter Metriken bei der Bewertung der Story-Qualität dazu, dass Reinforcement-Learning-Methoden mit manuell gestalteten Belohnungen Schwierigkeiten haben, einen allgemeinen Leistungsanstieg zu erzielen. Daher schlagen wir ein Framework des adversariellen Belohnungslernens (Adversarial REward Learning, AREL) vor, um eine implizite Belohnungsfunktion aus menschlichen Demonstrationen zu lernen und dann die Policysuche mit der gelernten Belohnungsfunktion zu optimieren. Obwohl automatische Evaluierungen einen leichten Leistungsanstieg im Vergleich zu den Stand-of-the-Art-Methoden (SOTA) bei der Klonierung von Expertenverhalten anzeigen, zeigt eine menschliche Bewertung, dass unser Ansatz signifikante Verbesserungen bei der Generierung menschenähnlicher Geschichten gegenüber SOTA-Systemen erreicht.