HyperAIHyperAI

Command Palette

Search for a command to run...

AOG-LSTM : Un réseau de neurones à attention adaptative pour la narration visuelle

and Wei Wu Rui Xie Hui Wang Yong Jiang Hai-Tao Zheng Wei Wang Chia-Hao Chang Jiacheng Yang Hanqing Liu

Résumé

Le récit visuel consiste à générer une histoire cohérente à partir d'une séquence d'images donnée, un domaine qui a suscité un intérêt croissant. Toutefois, l'utilisation de réseaux de neurones récurrents (RNN) généraux, tels que les LSTM ou les GRU, comme décodeurs, limite les performances des modèles dans cette tâche. En effet, ces architectures ne parviennent pas à distinguer les différentes catégories de représentations d'information. En outre, l'optimisation des probabilités des mots suivants conditionnées à la séquence de vérité terrain précédente peut entraîner une accumulation d'erreurs lors de l'inférence. Par ailleurs, la méthode existante visant à atténuer cette accumulation d'erreurs en remplaçant certains mots de référence ne tient pas compte des effets différenciés de chaque mot. Pour surmonter ces problèmes, nous proposons respectivement un réseau de neurones modifié appelé AOG-LSTM et une stratégie d'entraînement améliorée nommée ARS. L'AOG-LSTM est capable d'adapter automatiquement son attention aux différentes représentations d'information internes en fonction du mot à prédire. Lors de l'entraînement, la stratégie ARS remplace certains mots des phrases de référence par des prédictions du modèle, selon un principe similaire à la méthode existante. Toutefois, nous introduisons un réseau de sélection et une stratégie de sélection afin de choisir des mots plus pertinents pour le remplacement, permettant ainsi une amélioration significative du modèle. Des expériences effectuées sur le jeu de données VIST montrent que notre modèle surpasse plusieurs modèles de référence performants sur les métriques les plus couramment utilisées.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp