VLPD: Kontextbewusste Fußgängererkennung mittels visuell-sprachlicher semantischer Selbstüberwachung

Die präzise Erkennung von Fußgängern in städtischen Szenen ist für realistische Anwendungen wie autonomes Fahren oder Videoüberwachung von entscheidender Bedeutung. Allerdings führen oft verwirrende, menschenähnliche Objekte zu falschen Erkennungen, während kleine oder stark verdeckte Fußgänger aufgrund ihrer ungewöhnlichen Erscheinung leicht übersehen werden. Um diese Herausforderungen zu bewältigen, reichen reine Objektregionen nicht aus; vielmehr stellt sich die Frage, wie explizite und semantische Kontextinformationen optimal genutzt werden können. Zudem lernen bisherige kontextbewusste Fußgängerdetektoren entweder nur latente Kontexte anhand visueller Hinweise, oder benötigen aufwändige Annotationen, um explizite und semantische Kontexte zu erhalten. Daher schlagen wir in diesem Beitrag einen neuen Ansatz vor, der Vision-Language-Semantik-Selbstüberwachung für kontextbewusste Fußgängerdetektion (VLPD) nutzt, um explizite semantische Kontexte ohne zusätzliche Annotationen zu modellieren. Zunächst stellen wir eine selbstüberwachte Vision-Language-Semantik-(VLS)-Segmentierungsmethode vor, die sowohl eine vollständig überwachte Fußgängerdetektion als auch kontextbasierte Segmentierung mittels selbstgenerierter expliziter Etiketten semantischer Klassen durch visuelle Sprachmodelle lernt. Darüber hinaus wird eine selbstüberwachte prototypische semantische Kontrastlernmethode (PSC) vorgestellt, die die Unterscheidung zwischen Fußgängern und anderen Klassen auf Basis der aus der VLS-Methode gewonnenen expliziter und semantischer Kontexte verbessert. Umfangreiche Experimente auf etablierten Benchmarks zeigen, dass unser vorgeschlagener VLPD-Ansatz gegenüber vorherigen State-of-the-Art-Verfahren überlegen ist, insbesondere unter anspruchsvollen Bedingungen wie geringer Skalierung oder starker Verdeckung. Der Quellcode ist unter https://github.com/lmy98129/VLPD verfügbar.