HyperAIHyperAI
vor 2 Monaten

ZoomNeXt: Ein einheitliches kollaboratives Pyramiden-Netzwerk für die Erkennung getarnter Objekte

Pang, Youwei ; Zhao, Xiaoqi ; Xiang, Tian-Zhu ; Zhang, Lihe ; Lu, Huchuan
ZoomNeXt: Ein einheitliches kollaboratives Pyramiden-Netzwerk für die Erkennung getarnter Objekte
Abstract

Kürzliche Ansätze zur Erkennung getarnter Objekte (COD) versuchen, Objekte zu segmentieren, die visuell in ihre Umgebung integriert sind, was in realen Szenarien äußerst komplex und schwierig ist. Neben der hohen intrinsischen Ähnlichkeit zwischen getarnten Objekten und ihrem Hintergrund sind Objekte in der Regel vielfältig in ihrer Größe, unscharf im Erscheinungsbild und können sogar stark verdeckt sein. Hierfür schlagen wir ein effektives, einheitliches kollaboratives Pyramiden-Netzwerk vor, das menschliches Verhalten beim Betrachten vager Bilder und Videos nachahmt, d.h. das Heran- und Herauszoomen. Speziell setzt unser Ansatz die Zoomstrategie ein, um diskriminative Semantiken mit gemischter Skala durch mehrköpfige Skalenintegration und feingranulare Wahrnehmungseinheiten zu lernen. Diese Einheiten sind darauf ausgelegt, unsichtbare Hinweise zwischen Kandidatenobjekten und Hintergrundumgebungen vollständig auszuwerten. Die intrinsische mehrköpfige Aggregation des Ersteren liefert vielfältigere visuelle Muster. Der Routingmechanismus des Letzteren kann Unterschiede zwischen Frames in räumlich-zeitlichen Szenarien effektiv verbreiten und wird bei statischen Darstellungen anpassungsfähig deaktiviert, wobei er Nullergebnisse ausgibt. Sie bilden eine solide Grundlage für die Realisierung einer einheitlichen Architektur für statisches und dynamisches COD. Darüber hinaus berücksichtigen wir die Unsicherheit und Ambiguität, die von nicht unterscheidbaren Texturen herrührt, indem wir eine einfache aber effektive Regularisierung konstruieren: den Unsicherheitsbewusstseinsverlust (uncertainty awareness loss), um Vorhersagen mit höherem Vertrauen in Kandidatenregionen zu fördern. Unser hochgradig aufgabenfreundlicher Rahmen übertreffen bestehende Methoden des aktuellen Standes der Technik in Bild- und Videobenchmarks für COD konsistent. Unser Code ist unter {https://github.com/lartpang/ZoomNeXt} verfügbar.

ZoomNeXt: Ein einheitliches kollaboratives Pyramiden-Netzwerk für die Erkennung getarnter Objekte | Neueste Forschungsarbeiten | HyperAI