HyperAIHyperAI
vor 11 Tagen

EVP: Verbesserte visuelle Wahrnehmung durch inverse mehrfach-attentive Merkmalsverfeinerung und regularisierte Bild-Text-Ausrichtung

Mykola Lavreniuk, Shariq Farooq Bhat, Matthias Müller, Peter Wonka
EVP: Verbesserte visuelle Wahrnehmung durch inverse mehrfach-attentive Merkmalsverfeinerung und regularisierte Bild-Text-Ausrichtung
Abstract

Diese Arbeit präsentiert die Netzarchitektur EVP (Enhanced Visual Perception). EVP baut auf der vorherigen Arbeit VPD auf, die den Weg für die Verwendung des Stable Diffusion-Netzwerks in Aufgaben des Computersehens geebnet hat. Wir schlagen zwei wesentliche Verbesserungen vor. Erstens entwickeln wir das Inverse Multi-Attentive Feature Refinement (IMAFR)-Modul, das die Fähigkeit zur Merkmalslernung durch die Aggregation räumlicher Informationen aus höheren Pyramidenstufen verbessert. Zweitens stellen wir ein neuartiges Bild-Text-Ausrichtungsmodul vor, das die Merkmalsextraktion des Stable Diffusion-Backbones optimiert. Die resultierende Architektur eignet sich für eine breite Palette von Aufgaben, und wir demonstrieren ihre Leistungsfähigkeit bei der Schätzung der Tiefeninformation aus einer einzigen Bildquelle mit einem spezialisierten Decoder unter Verwendung von klassifizierbaren Bin-Intervallen sowie bei der Referenzsegmentierung mit einem kommerziell erhältlichen Decoder. Umfassende Experimente auf etablierten Datensätzen zeigen, dass EVP state-of-the-art Ergebnisse bei der Schätzung der Tiefeninformation aus einer einzigen Bildquelle erzielt – sowohl in Innenräumen (NYU Depth v2, 11,8 % RMSE-Verbesserung gegenüber VPD) als auch in Außenumgebungen (KITTI) – sowie bei der Referenzsegmentierung (RefCOCO, 2,53 IoU-Verbesserung gegenüber ReLA). Der Quellcode und vortrainierte Modelle sind öffentlich unter https://github.com/Lavreniuk/EVP verfügbar.

EVP: Verbesserte visuelle Wahrnehmung durch inverse mehrfach-attentive Merkmalsverfeinerung und regularisierte Bild-Text-Ausrichtung | Neueste Forschungsarbeiten | HyperAI