HyperAIHyperAI
vor 3 Monaten

Cross-Modality Knowledge Distillation für die multimodale Objektklassifikation aus Luftaufnahmen

{Lehan Yang; Kele Xu}
Cross-Modality Knowledge Distillation für die multimodale Objektklassifikation aus Luftaufnahmen
Abstract

Bei ungünstigen Wetterbedingungen oder schlechten Beleuchtungsverhältnissen kann ein einzelner Sensor möglicherweise nicht ausreichend Informationen für die Objekterkennung erfassen. Im Vergleich zu herkömmlichen optischen Bildern weist die Synthetic Aperture Radar (SAR)-Bildgebung erhebliche Vorteile auf, beispielsweise die Fähigkeit, Nebel und Rauch zu durchdringen. Allerdings weisen SAR-Bilder eine geringe Auflösung auf und sind durch starkes Streu-Rauschen (Speckle-Rauschen) beeinträchtigt. Dadurch ist die Extraktion leistungsfähiger und robuster Merkmale aus SAR-Bildern äußerst schwierig. In diesem Artikel untersuchen wir, ob die Kombination mehrerer Bildmodaliäten die Leistung der Objekterkennung verbessern kann. Hierbei stellen wir ein neues Paradigma namens Cross Modality Knowledge Distillation (CMKD) vor und untersuchen zwei unterschiedliche Netzwerkarchitekturen, die wir CMKD-s und CMKD-m nennen, im Kontext der Objektklassifikation. Insbesondere überträgt CMKD-s mithilfe von Online Knowledge Distillation die Informationen, die von den beiden Sensoren erfasst wurden, wodurch ein gegenseitiger Wissensaustausch zwischen den Modaliäten ermöglicht wird und die Robustheit des Modells für die Klassifikation von Objekten aus Luftbildern gesteigert wird. Darüber hinaus nutzen wir eine semi-supervised verbesserte Trainingsstrategie, um eine neuartige Methode namens CMKD-m vorzustellen, die den Prozess des gegenseitigen Wissensaustauschs weiter verstärkt. Durch quantitative Vergleiche zeigen wir, dass sowohl CMKD-s als auch CMKD-m die Leistungsmethoden ohne Wissensübertragung auf dem NTIRE2021 SAR-EO-Challenge-Datensatz übertrifft.

Cross-Modality Knowledge Distillation für die multimodale Objektklassifikation aus Luftaufnahmen | Forschungsarbeiten | HyperAI