il y a 3 mois

AOG-LSTM : Un réseau de neurones à attention adaptative pour la narration visuelle

{and Wei Wu, Rui Xie, Hui Wang, Yong Jiang, Hai-Tao Zheng, Wei Wang, Chia-Hao Chang, Jiacheng Yang, Hanqing Liu}

Résumé

Le récit visuel consiste à générer une histoire cohérente à partir d'une séquence d'images donnée, un domaine qui a suscité un intérêt croissant. Toutefois, l'utilisation de réseaux de neurones récurrents (RNN) généraux, tels que les LSTM ou les GRU, comme décodeurs, limite les performances des modèles dans cette tâche. En effet, ces architectures ne parviennent pas à distinguer les différentes catégories de représentations d'information. En outre, l'optimisation des probabilités des mots suivants conditionnées à la séquence de vérité terrain précédente peut entraîner une accumulation d'erreurs lors de l'inférence. Par ailleurs, la méthode existante visant à atténuer cette accumulation d'erreurs en remplaçant certains mots de référence ne tient pas compte des effets différenciés de chaque mot. Pour surmonter ces problèmes, nous proposons respectivement un réseau de neurones modifié appelé AOG-LSTM et une stratégie d'entraînement améliorée nommée ARS. L'AOG-LSTM est capable d'adapter automatiquement son attention aux différentes représentations d'information internes en fonction du mot à prédire. Lors de l'entraînement, la stratégie ARS remplace certains mots des phrases de référence par des prédictions du modèle, selon un principe similaire à la méthode existante. Toutefois, nous introduisons un réseau de sélection et une stratégie de sélection afin de choisir des mots plus pertinents pour le remplacement, permettant ainsi une amélioration significative du modèle. Des expériences effectuées sur le jeu de données VIST montrent que notre modèle surpasse plusieurs modèles de référence performants sur les métriques les plus couramment utilisées.