il y a 8 mois

Résumé

La géolocalisation d'images est une tâche ardue qui consiste à prédire les coordonnées géographiques d'origine d'une photographie donnée. Il s'agit d'un problème non résolu qui repose sur la capacité à combiner des indices visuels avec des connaissances générales du monde pour faire des prédictions précises à travers différentes géographies. Nous présentons $\href{https://huggingface.co/geolocal/StreetCLIP}{\text{StreetCLIP}}$ , un modèle fondamental robuste et disponible publiquement, qui non seulement atteint des performances de pointe sur plusieurs benchmarks de géolocalisation d'images en domaine ouvert, mais le fait également dans un cadre zéro-shot, surpassant ainsi des modèles supervisés formés sur plus de 4 millions d'images. Notre méthode introduit une approche de méta-apprentissage pour l'apprentissage zéro-shot généralisé en préformant CLIP à partir de légendes synthétiques, ancrant CLIP dans un domaine choisi. Nous démontrons que notre méthode transfère efficacement les capacités d'apprentissage zéro-shot généralisé de CLIP au domaine de la géolocalisation d'images, améliorant les performances zéro-shot généralisées en domaine spécifique sans avoir besoin de fine-tuner StreetCLIP sur un ensemble fixe de classes.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Vision Par Ordinateur

Information Géographique

Représentation Multimodale

Domaine D'application

Multimodal

Vision Par Ordinateur

Tâche

Lukas Haas Silas Alberti Michal Skreta

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Vision Par Ordinateur

Information Géographique

Représentation Multimodale

Domaine D'application

Multimodal

Vision Par Ordinateur

Tâche

Lukas Haas Silas Alberti Michal Skreta

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Apprentissage de modèles généralisés pour la géolocalisation d'images dans un domaine ouvert

Lukas Haas Silas Alberti Michal Skreta

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage de modèles généralisés pour la géolocalisation d'images dans un domaine ouvert

Lukas Haas Silas Alberti Michal Skreta

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage de modèles généralisés pour la géolocalisation d'images dans un domaine ouvert

Lukas Haas Silas Alberti Michal Skreta

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters