HyperAIHyperAI
vor 2 Monaten

Lernen verallgemeinerter Zero-Shot-Lerner für die Geolokalisierung von Bildern in offenen Domänen

Lukas Haas; Silas Alberti; Michal Skreta
Lernen verallgemeinerter Zero-Shot-Lerner für die Geolokalisierung von Bildern in offenen Domänen
Abstract

Die Geolokalisierung von Bildern ist die anspruchsvolle Aufgabe, die geografischen Koordinaten des Ursprungs eines gegebenen Fotos vorherzusagen. Es handelt sich um ein ungelöstes Problem, das auf der Fähigkeit beruht, visuelle Hinweise mit allgemeinem Wissen über die Welt zu kombinieren, um präzise Vorhersagen in verschiedenen Regionen zu treffen. Wir stellen $\href{https://huggingface.co/geolocal/StreetCLIP}{\text{StreetCLIP}}$ vor, ein robustes und öffentlich zugängliches Grundmodell, das nicht nur den aktuellen Stand der Technik bei mehreren offenen Benchmarks für Bildgeolokalisierung erreicht, sondern dies auch im Zero-Shot-Setting tut und dabei überwacht trainierte Modelle übertreffen kann, die auf mehr als 4 Millionen Bilder trainiert wurden. Unsere Methode führt einen Meta-Learning-Ansatz für generalisiertes Zero-Shot-Lernen ein, indem CLIP mit synthetischen Beschreibungen vortrainiert wird und so in eine gewählte Domäne eingebettet wird. Wir zeigen, dass unsere Methode CLIPs generalisierte Zero-Shot-Fähigkeiten effektiv in die Domäne der Bildgeolokalisierung überträgt und die generalisierte Zero-Shot-Leistung innerhalb dieser Domäne verbessert, ohne StreetCLIP auf einer festen Menge von Klassen feintunen zu müssen.

Lernen verallgemeinerter Zero-Shot-Lerner für die Geolokalisierung von Bildern in offenen Domänen | Neueste Forschungsarbeiten | HyperAI