HyperAIHyperAI
vor 2 Monaten

SCAResNet: Eine ResNet-Variante, optimiert für die Erkennung kleiner Objekte in Übertragungs- und Verteilungstürmen

Li, Weile ; Shi, Muqing ; Hong, Zhonghua
SCAResNet: Eine ResNet-Variante, optimiert für die Erkennung kleiner Objekte in Übertragungs- und Verteilungstürmen
Abstract

Traditionelle objekterkennende Netze auf Basis des tiefen Lernens vergrößern oder verkleinern oft Bilder während der Datenvorverarbeitungsphase, um eine einheitliche Größe und Skalierung in der Merkmalskarte zu erreichen. Diese Veränderung wird durchgeführt, um die Modellpropagation und die vollständig vernetzte Klassifizierung zu erleichtern. Allerdings führt das Vergrößer- oder Verkleineren unvermeidlich zu Objektverzerrungen und zum Verlust wertvoller Informationen in den Bildern. Dieser Nachteil tritt besonders deutlich bei kleinen Objekten wie Verteilertürmen mit linearen Formen und wenigen Pixeln auf. Um dieses Problem zu lösen, schlagen wir vor, die Vergrößer- oder Verkleineroperation zu verwerfen. Stattdessen führen wir die Positionale-Codierung Multi-Kopf Criss-Cross-Aufmerksamkeit (Positional-Encoding Multi-head Criss-Cross Attention) ein. Dies ermöglicht es dem Modell, kontextuelle Informationen zu erfassen und aus mehreren Darstellungsunterräumen zu lernen, was die Semantik von Verteilertürmen effektiv bereichert. Zudem verbessern wir das räumliche Pyramidenpooling (Spatial Pyramid Pooling), indem wir drei gepoolte Merkmalskarten in eine neue, einheitliche umformen und gleichzeitig die Rechenlast reduzieren. Dieser Ansatz ermöglicht es Bildern unterschiedlicher Größen und Skalen, Merkmalskarten mit einheitlichen Dimensionen zu erzeugen, die für die Propagation von Merkmalskarten verwendet werden können. Unser SCAResNet integriert diese genannten Verbesserungen in das Backbone-Netzwerk ResNet. Wir haben unser SCAResNet anhand des Datensatzes für elektrische Übertragungs- und Verteilungsinfrastrukturbilder von Duke University evaluiert. Ohne zusätzliche Tricks haben wir verschiedene Objekterkennungsmodelle mit Gaußschem Empfangsfeld basierter Labelzuordnung als Baseline eingesetzt. Bei der Integration von SCAResNet in das Basismodell konnten wir eine Verbesserung des mAPs von 2,1 % erzielen. Dies zeigt die Vorteile unseres SCAResNet bei der Erkennung von Übertragungs- und Verteilungstürmen sowie seinen Wert bei der Detektion kleiner Objekte. Der Quellcode ist unter https://github.com/LisavilaLee/SCAResNet_mmdet verfügbar.

SCAResNet: Eine ResNet-Variante, optimiert für die Erkennung kleiner Objekte in Übertragungs- und Verteilungstürmen | Neueste Forschungsarbeiten | HyperAI