HyperAIHyperAI

Command Palette

Search for a command to run...

DenseCap : Réseaux de localisation entièrement convolutionnels pour la légendage dense

Justin Johnson* Andrej Karpathy* Li Fei-Fei

Résumé

Nous présentons la tâche de légendage dense, qui nécessite qu'un système de vision par ordinateur localise et décrit des régions saillantes dans les images à l'aide d'une langue naturelle. La tâche de légendage dense généralise la détection d'objets lorsque les descriptions se composent d'un seul mot, et le légendage d'images lorsque une seule région prédite couvre l'image entière. Pour aborder conjointement les tâches de localisation et de description, nous proposons une architecture de réseau de localisation pleinement convolutionnel (Fully Convolutional Localization Network, FCLN) qui traite une image en un seul passage direct efficace, n'a pas besoin de propositions de régions externes et peut être formée bout à bout avec une seule itération d'optimisation. L'architecture est composée d'un réseau convolutif, d'une nouvelle couche de localisation dense et d'un modèle linguistique de réseau neuronal récurrent qui génère les séquences d'étiquettes. Nous évaluons notre réseau sur le jeu de données Visual Genome, qui comprend 94 000 images et 4 100 000 légendes ancrées dans des régions. Nous constatons des améliorations tant en termes de vitesse que de précision par rapport aux méthodes basées sur l'état actuel de l'art dans les configurations de génération et de recherche.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp