HyperAIHyperAI
il y a 2 mois

FiLM : Raisonnement visuel avec une couche de conditionnement générale

Ethan Perez; Florian Strub; Harm de Vries; Vincent Dumoulin; Aaron Courville
FiLM : Raisonnement visuel avec une couche de conditionnement générale
Résumé

Nous présentons une méthode de conditionnement à usage général pour les réseaux de neurones appelée FiLM : Feature-wise Linear Modulation (Modulation Linéaire par Caractéristique). Les couches FiLM influencent le calcul des réseaux de neurones par une transformation affine simple, appliquée caractéristique par caractéristique, basée sur l'information de conditionnement. Nous démontrons que les couches FiLM sont particulièrement efficaces pour la raisonnement visuel - répondre à des questions liées aux images qui nécessitent un processus à plusieurs étapes et de haut niveau - une tâche qui s'est avérée difficile pour les méthodes d'apprentissage profond standard qui ne modélisent pas explicitement le raisonnement. Plus précisément, nous montrons sur des tâches de raisonnement visuel que les couches FiLM 1) divisent par deux l'erreur de l'état de l'art pour le benchmark CLEVR, 2) modulent les caractéristiques d'une manière cohérente, 3) sont robustes aux ablations et aux modifications architecturales, et 4) généralisent bien à des données nouvelles et difficiles, même avec peu d'exemples ou en zero-shot.

FiLM : Raisonnement visuel avec une couche de conditionnement générale | Articles de recherche récents | HyperAI