HyperAIHyperAI
il y a 2 mois

Réseaux de neurones convolutifs récurrents à long terme pour la reconnaissance et la description visuelles

Jeff Donahue; Lisa Anne Hendricks; Marcus Rohrbach; Subhashini Venugopalan; Sergio Guadarrama; Kate Saenko; Trevor Darrell
Réseaux de neurones convolutifs récurrents à long terme pour la reconnaissance et la description visuelles
Résumé

Les modèles basés sur les réseaux de neurones convolutionnels profonds ont dominé les tâches d'interprétation d'images récentes ; nous examinons si des modèles qui sont également récurrents, ou « profonds temporellement », sont efficaces pour les tâches impliquant des séquences, visuelles ou autres. Nous développons une nouvelle architecture récurrente-convolutionnelle adaptée à l'apprentissage visuel à grande échelle, entièrement entraînable, et démontrons la valeur de ces modèles sur des tâches de reconnaissance vidéo de référence, des problèmes de description et de recherche d'images, ainsi que sur des défis de narration vidéo. Contrairement aux modèles actuels qui supposent un champ récepteur spatio-temporel fixe ou une moyenne temporelle simple pour le traitement séquentiel, les modèles récurrents-convolutionnels sont « doublement profonds » en ce qu'ils peuvent être compositionnels dans les « couches » spatiales et temporelles. De tels modèles peuvent présenter des avantages lorsque les concepts cibles sont complexes et/ou que les données d'entraînement sont limitées. L'apprentissage des dépendances à long terme est possible lorsque des non-linéarités sont intégrées dans les mises à jour de l'état du réseau. Les modèles RNN à long terme sont attractifs car ils peuvent directement cartographier des entrées de longueur variable (par exemple, des images vidéo) sur des sorties de longueur variable (par exemple, du texte en langage naturel) et peuvent modéliser des dynamiques temporelles complexes ; toutefois, ils peuvent être optimisés par rétropropagation. Nos modèles récurrents à long terme sont directement connectés aux modèles convnets visuels modernes et peuvent être entraînés conjointement pour apprendre simultanément les dynamiques temporelles et les représentations perceptuelles convolutionnelles. Nos résultats montrent que ces modèles présentent des avantages distincts par rapport aux modèles d'avant-garde définis et/ou optimisés séparément pour la reconnaissance ou la génération.