HyperAIHyperAI

Command Palette

Search for a command to run...

ProGEO : Génération de prompts par apprentissage contrastif image-texte pour la géolocalisation visuelle

Chen Mao Jingqi Hu

Résumé

La géolocalisation visuelle (VG) désigne le processus permettant d'identifier l'emplacement décrit dans des images interrogées, et est largement utilisée dans les domaines de la robotique et des tâches de vision par ordinateur, tels que la conduite autonome, le métavers, la réalité augmentée et la SLAM. Dans le cas d'images à fort niveau de détail privées de descriptions textuelles précises, l'application directe de méthodes purement visuelles pour représenter les caractéristiques du voisinage conduit souvent le modèle à se concentrer sur des détails excessivement fins, empêchant ainsi une exploitation complète de l'information sémantique contenue dans les images. Ainsi, nous proposons une méthode d'entraînement en deux étapes afin d'améliorer les performances visuelles, combinée à une approche d'apprentissage contrastif pour extraire des échantillons difficiles. Premièrement, nous exploitons la capacité multimodale de CLIP (Contrastive Language-Image Pretraining) afin de générer un ensemble de prompts textuels apprenables pour chaque caractéristique d'image géographique, formant ainsi des descriptions floues. Ensuite, en utilisant des prompts textuels dynamiques pour aider à l'entraînement de l'encodeur d'images, nous permettons à cet encodeur d'apprendre des caractéristiques visuelles plus performantes et plus généralisables. Cette stratégie consistant à intégrer des éléments textuels dans des tâches purement visuelles répond au défi posé par l'utilisation de modèles multimodaux pour les images géographiques, qui souffrent souvent d'un manque de descriptions précises, rendant leur utilisation répandue difficile. Nous validons l'efficacité de la stratégie proposée sur plusieurs jeux de données à grande échelle de géolocalisation visuelle, et notre méthode obtient des résultats compétitifs sur plusieurs benchmarks de géolocalisation visuelle. Le code source et les modèles sont disponibles à l'adresse suivante : https://github.com/Chain-Mao/ProGEO.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp