HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de modèles généralisés pour la géolocalisation d'images dans un domaine ouvert

Lukas Haas Silas Alberti Michal Skreta

Résumé

La géolocalisation d'images est une tâche ardue qui consiste à prédire les coordonnées géographiques d'origine d'une photographie donnée. Il s'agit d'un problème non résolu qui repose sur la capacité à combiner des indices visuels avec des connaissances générales du monde pour faire des prédictions précises à travers différentes géographies. Nous présentons \href\href{https://huggingface.co/geolocal/StreetCLIP}{\text{StreetCLIP}}\href, un modèle fondamental robuste et disponible publiquement, qui non seulement atteint des performances de pointe sur plusieurs benchmarks de géolocalisation d'images en domaine ouvert, mais le fait également dans un cadre zéro-shot, surpassant ainsi des modèles supervisés formés sur plus de 4 millions d'images. Notre méthode introduit une approche de méta-apprentissage pour l'apprentissage zéro-shot généralisé en préformant CLIP à partir de légendes synthétiques, ancrant CLIP dans un domaine choisi. Nous démontrons que notre méthode transfère efficacement les capacités d'apprentissage zéro-shot généralisé de CLIP au domaine de la géolocalisation d'images, améliorant les performances zéro-shot généralisées en domaine spécifique sans avoir besoin de fine-tuner StreetCLIP sur un ensemble fixe de classes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp