Tangent Bilder zur Minderung sphärischer Verzerrung

In dieser Arbeit stellen wir „Tangentialbilder“ vor, eine sphärische Bildrepräsentation, die übertragbare und skalierbare $360^\circ$-Computer Vision ermöglicht. Angeregt durch Techniken der Kartografie und Computergrafik rendern wir ein sphärisches Bild auf eine Menge von verzerrenreduzierten, lokal ebenen Bildgittern, die einer unterteilten Ikosaeder-Struktur tangential sind. Durch die unabhängige Anpassung der Auflösung dieser Gitter von der Unterteilungsebene können wir hochauflösende sphärische Bilder effektiv darstellen, während wir gleichzeitig von der geringen Verzerrung der ikosaedrischen sphärischen Approximation profitieren. Wir zeigen, dass die Trainingsleistung standardmäßiger Faltungsneuroner Netze auf Tangentialbildern gegenüber zahlreichen spezialisierten sphärischen Faltungs-Kernen, die entwickelt wurden, konkurrenzfähig ist und gleichzeitig effizient auf deutlich höhere sphärische Auflösungen skaliert. Darüber hinaus zeigt sich, dass unsere Methode aufgrund der Verzicht auf spezialisierte Kerne es ermöglicht, Netzwerke, die auf perspektivischen Bildern trainiert wurden, ohne Feinabstimmung auf sphärische Daten zu übertragen, wobei nur eine geringe Leistungsverschlechterung auftritt. Schließlich demonstrieren wir, dass Tangentialbilder zur Verbesserung der Qualität der Sparsen Merkmalserkennung auf sphärischen Bildern eingesetzt werden können, was ihre Nützlichkeit für traditionelle Computer-Vision-Aufgaben wie Struktur-aus-Bewegung (Structure-from-Motion) und SLAM verdeutlicht.