HyperAIHyperAI
vor 17 Tagen

Ein DeNoising FPN mit Transformer R-CNN für die Detektion winziger Objekte

Hou-I Liu, Yu-Wen Tseng, Kai-Cheng Chang, Pin-Jyun Wang, Hong-Han Shuai, Wen-Huang Cheng
Ein DeNoising FPN mit Transformer R-CNN für die Detektion winziger Objekte
Abstract

Trotz beachtlicher Fortschritte im Bereich des Computersehens stellt die präzise Erkennung winziger Objekte weiterhin eine erhebliche Herausforderung dar, hauptsächlich aufgrund der geringen Pixelrepräsentation, die diesen Objekten in Bilddaten zugeordnet wird. Diese Schwierigkeit ist besonders im Bereich der Geowissenschaften und Fernerkundung von großer Bedeutung, wo eine hochauflösende Erkennung winziger Objekte eine Vielzahl von Anwendungen ermöglicht, von der Stadtplanung bis hin zur Umweltüberwachung. In diesem Artikel stellen wir einen neuen Ansatz vor, namens DeNoising FPN mit Trans R-CNN (DNTR), um die Leistung der Erkennung winziger Objekte zu verbessern. DNTR besteht aus einem einfach integrierbaren Baustein, dem DeNoising FPN (DN-FPN), sowie einem effektiven Transformer-basierten Detektor, dem Trans R-CNN. Insbesondere ist die Merkmalsfusion im Feature-Pyramiden-Netzwerk (FPN) entscheidend für die Erkennung von Objekten unterschiedlicher Skalen. Allerdings können während des Fusionsprozesses rauschhafte Merkmale entstehen, da zwischen den Merkmalen verschiedener Skalen keine Regularisierung erfolgt. Daher führen wir ein DN-FPN-Modul ein, das kontrastives Lernen nutzt, um Rauschen in den Merkmalen jeder Ebene auf dem top-down-Pfad des FPN zu unterdrücken. Zweitens ersetzen wir im zweistufigen Framework den veralteten R-CNN-Detektor durch einen neuartigen Trans R-CNN-Detektor, der sich durch Selbst-Attention auf die Repräsentation winziger Objekte konzentriert. Experimentelle Ergebnisse zeigen, dass unser DNTR die Baseline-Methoden auf dem AI-TOD-Datensatz um mindestens 17,4 % in Bezug auf APvt und auf dem VisDrone-Datensatz um mindestens 9,6 % in Bezug auf AP übertrifft. Der Quellcode wird unter https://github.com/hoiliu-0801/DNTR verfügbar sein.