Proposition de boîtes détachées et featurisation avec des étiquettes sémantiques ultra-fines améliorent la légendage d'images et les réponses à questions visuelles

La détection d'objets joue un rôle crucial dans les solutions actuelles aux tâches de vision et de langage, telles que la légendage d'images et la réponse à des questions visuelles. Cependant, les modèles populaires comme Faster R-CNN reposent sur un processus coûteux d'annotation des vérités terrain pour les boîtes englobantes et leurs étiquettes sémantiques correspondantes, ce qui en fait une tâche moins adaptée au transfert d'apprentissage. Dans cet article, nous examinons l'effet de la dissociation de la proposition de boîtes et de la featurisation pour les tâches en aval. L'idée clé est que cela nous permet d'utiliser une grande quantité d'annotations étiquetées qui n'étaient auparavant pas disponibles pour les benchmarks standard de détection d'objets. Expérimentalement, nous montrons que cela conduit à un apprentissage par transfert efficace et à des modèles améliorés de légendage d'images et de réponse à des questions visuelles, mesurés sur des benchmarks publiquement disponibles.