il y a 2 mois

Aucune métrique n'est parfaite : apprentissage de récompenses adversariales pour le storytelling visuel

Xin Wang; Wenhu Chen; Yuan-Fang Wang; William Yang Wang

Résumé

Bien que des résultats impressionnants aient été obtenus dans le domaine de la légendage visuel, la tâche de générer des récits abstraits à partir de flux de photos reste un problème peu exploré. Contrairement aux légendes, les récits présentent des styles linguistiques plus expressifs et contiennent de nombreux concepts imaginaires qui ne figurent pas dans les images. Cela pose donc des défis aux algorithmes d'apprentissage par imitation. De plus, en raison des limitations des métriques automatiques pour évaluer la qualité des récits, les méthodes d'apprentissage par renforcement avec des récompenses conçues manuellement rencontrent également des difficultés pour améliorer globalement les performances. Par conséquent, nous proposons un cadre d'Apprentissage de Récompense Adversarial (AREL) pour apprendre une fonction de récompense implicite à partir de démonstrations humaines, puis optimiser la recherche de politiques avec cette fonction de récompense apprise. Bien que l'évaluation automatique indique une légère amélioration des performances par rapport aux méthodes les plus avancées (SOTA) dans l'imitation du comportement d'experts, l'évaluation humaine montre que notre approche réalise une amélioration significative dans la génération de récits plus proches de ceux produits par les humains que les systèmes SOTA.