HyperAIHyperAI
il y a 17 jours

Visual Commonsense R-CNN

Tan Wang, Jianqiang Huang, Hanwang Zhang, Qianru Sun
Visual Commonsense R-CNN
Résumé

Nous présentons une nouvelle méthode d’apprentissage non supervisé de représentations fonctionnelles, appelée Visual Commonsense Region-based Convolutional Neural Network (VC R-CNN), conçue comme un encodeur amélioré des régions visuelles pour des tâches de haut niveau telles que la génération de légendes (captioning) et la question-réponse visuelle (VQA). Étant donné un ensemble de régions d’objets détectées dans une image (par exemple, à l’aide de Faster R-CNN), tout comme d’autres méthodes d’apprentissage non supervisé (par exemple, word2vec), l’objectif de formation indirecte de VC R-CNN consiste à prédire les objets contextuels associés à une région. Toutefois, ces approches diffèrent fondamentalement : la prédiction effectuée par VC R-CNN repose sur une intervention causale, exprimée par P(Y|do(X)), tandis que les autres méthodes s’appuient sur la vraisemblance classique, P(Y|X). C’est précisément cette différence fondamentale qui permet à VC R-CNN d’apprendre des connaissances de type « sens commun » — par exemple, le fait qu’une chaise peut être utilisée pour s’asseoir — au lieu de simples co-occurrences statistiques, telles que « une chaise est probablement présente si une table est observée ». Nous avons appliqué de manière extensive les caractéristiques issues de VC R-CNN dans des modèles actuels de trois tâches populaires : la génération de légendes, la VQA et la VCR, observant des améliorations de performance cohérentes sur l’ensemble d’entre elles, atteignant ainsi de nombreux nouveaux états de l’art. Le code et les caractéristiques sont disponibles à l’adresse suivante : https://github.com/Wangt-CN/VC-R-CNN.

Visual Commonsense R-CNN | Articles de recherche récents | HyperAI