HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen verallgemeinerter Zero-Shot-Lerner für die Geolokalisierung von Bildern in offenen Domänen

Lukas Haas Silas Alberti Michal Skreta

Zusammenfassung

Die Geolokalisierung von Bildern ist die anspruchsvolle Aufgabe, die geografischen Koordinaten des Ursprungs eines gegebenen Fotos vorherzusagen. Es handelt sich um ein ungelöstes Problem, das auf der Fähigkeit beruht, visuelle Hinweise mit allgemeinem Wissen über die Welt zu kombinieren, um präzise Vorhersagen in verschiedenen Regionen zu treffen. Wir stellen \href\href{https://huggingface.co/geolocal/StreetCLIP}{\text{StreetCLIP}}\href vor, ein robustes und öffentlich zugängliches Grundmodell, das nicht nur den aktuellen Stand der Technik bei mehreren offenen Benchmarks für Bildgeolokalisierung erreicht, sondern dies auch im Zero-Shot-Setting tut und dabei überwacht trainierte Modelle übertreffen kann, die auf mehr als 4 Millionen Bilder trainiert wurden. Unsere Methode führt einen Meta-Learning-Ansatz für generalisiertes Zero-Shot-Lernen ein, indem CLIP mit synthetischen Beschreibungen vortrainiert wird und so in eine gewählte Domäne eingebettet wird. Wir zeigen, dass unsere Methode CLIPs generalisierte Zero-Shot-Fähigkeiten effektiv in die Domäne der Bildgeolokalisierung überträgt und die generalisierte Zero-Shot-Leistung innerhalb dieser Domäne verbessert, ohne StreetCLIP auf einer festen Menge von Klassen feintunen zu müssen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp