Globales proxybasiertes Hard-Mining für die visuelle Ortserkennung

Das Lernen tiefer Darstellungen für die visuelle Ortserkennung wird in der Regel mit paarweisen oder tripletten Verlustfunktionen durchgeführt, die stark von der Schwierigkeit der bei jeder Trainingsiteration ausgewählten Beispiele abhängen. Bestehende Techniken lösen dieses Problem durch aufwendiges Offline-Hard-Mining, das bei jeder Iteration die schwierigsten Beispiele aus dem Trainingsdatensatz identifiziert. In dieser Arbeit stellen wir eine neue Technik vor, die globales Hard-Mini-Batch-Sampling basierend auf Proxies durchführt. Dazu fügen wir dem Netzwerk einen neuen end-to-end trainierbaren Ast hinzu, der effiziente Ortbeschreibungen generiert (einen Proxy pro Ort). Diese Proxy-Darstellungen werden verwendet, um einen globalen Index zu erstellen, der die Ähnlichkeiten zwischen allen Orten im Datensatz umfasst und somit hochinformative Mini-Batches bei jeder Trainingsiteration ermöglicht. Unser Verfahren kann in Kombination mit allen existierenden paarweisen und tripletten Verlustfunktionen eingesetzt werden, wobei die zusätzlichen Speicher- und Rechenaufwände vernachlässigbar sind. Wir führen umfangreiche Abstraktionsstudien durch und zeigen, dass unsere Technik neue Standarts in der Leistung auf mehreren großen Benchmarks wie Pittsburgh, Mapillary-SLS und SPED erreicht. Insbesondere liefert unsere Methode eine relative Verbesserung von mehr als 100 % im anspruchsvollen Nordland-Datensatz. Unser Code ist unter https://github.com/amaralibey/GPM verfügbar.请注意,这里“Abstraktionsstudien”通常指的是抽象研究,但根据上下文,这里可能是指消融研究(Ablation Studies)。因此,建议将其翻译为“Ablationsstudien”。以下是修正后的版本:Das Lernen tiefer Darstellungen für die visuelle Ortserkennung wird in der Regel mit paarweisen oder tripletten Verlustfunktionen durchgeführt, die stark von der Schwierigkeit der bei jeder Trainingsiteration ausgewählten Beispiele abhängen. Bestehende Techniken lösen dieses Problem durch aufwendiges Offline-Hard-Mining, das bei jeder Iteration die schwierigsten Beispiele aus dem Trainingsdatensatz identifiziert. In dieser Arbeit stellen wir eine neue Technik vor, die globales Hard-Mini-Batch-Sampling basierend auf Proxies durchführt. Dazu fügen wir dem Netzwerk einen neuen end-to-end trainierbaren Ast hinzu, der effiziente Ortbeschreibungen generiert (einen Proxy pro Ort). Diese Proxy-Darstellungen werden verwendet, um einen globalen Index zu erstellen, der die Ähnlichkeiten zwischen allen Orten im Datensatz umfasst und somit hochinformative Mini-Batches bei jeder Trainingsiteration ermöglicht. Unser Verfahren kann in Kombination mit allen existierenden paarweisen und tripletten Verlustfunktionen eingesetzt werden, wobei die zusätzlichen Speicher- und Rechenaufwände vernachlässigbar sind. Wir führen umfangreiche Ablationsstudien durch und zeigen, dass unsere Technik neue Standarts in der Leistung auf mehreren großen Benchmarks wie Pittsburgh, Mapillary-SLS und SPED erreicht. Insbesondere liefert unsere Methode eine relative Verbesserung von mehr als 100 % im anspruchsvollen Nordland-Datensatz. Unser Code ist unter https://github.com/amaralibey/GPM verfügbar.