HyperAIHyperAI
vor 9 Tagen

Skalierung effizienter maskierter Bildmodellierung auf großen Fernerkundungsdatensätzen

Fengxiang Wang, Hongzhen Wang, Di Wang, Zonghao Guo, Zhenyu Zhong, Long Lan, Jing Zhang, Zhiyuan Liu, Maosong Sun
Skalierung effizienter maskierter Bildmodellierung auf großen Fernerkundungsdatensätzen
Abstract

Masked Image Modeling (MIM) ist zu einer zentralen Methode für die Entwicklung grundlegender visueller Modelle im Bereich der Fernerkundung (Remote Sensing, RS) geworden. Doch die begrenzte Größe und Vielfalt bestehender RS-Datensätze behindern die Fähigkeit von MIM-Verfahren, generalisierbare Darstellungen zu lernen. Zudem führen herkömmliche MIM-Techniken, die die Rekonstruktion aller Tokens erfordern, aufgrund unnötiger Berechnungsüberlastung zu ineffizienten Prozessen. Um diese Herausforderungen zu bewältigen, präsentieren wir einen neuen Vortrainings-Pipeline für RS-Modelle, der sowohl die Erstellung eines großskaligen RS-Datensatzes als auch einen effizienten MIM-Ansatz beinhaltet. Wir haben einen hochwertigen Datensatz namens OpticalRS-13M zusammengestellt, indem wir öffentlich verfügbare RS-Datensätze gesammelt und anschließend durch Ausschluss, Zerlegung und Deduplizierung verarbeitet haben. OpticalRS-13M umfasst 13 Millionen optische Bilder, die eine Vielzahl von RS-Aufgaben wie Objekterkennung und Pixelsegmentierung abdecken. Um die Effizienz zu steigern, schlagen wir SelectiveMAE vor, eine Vortrainingsmethode, die semantisch reichhaltige Patch-Tokens dynamisch codiert und rekonstruiert und dadurch die Ineffizienzen traditioneller MIM-Modelle reduziert, die durch redundante Hintergrundpixel in RS-Bildern verursacht werden. Umfangreiche Experimente zeigen, dass OpticalRS-13M die Leistung bei Klassifikation, Erkennung und Segmentierung erheblich verbessert, während SelectiveMAE die Trainingsgeschwindigkeit um mehr als das Zweifache steigert. Dies unterstreicht die Wirksamkeit und Skalierbarkeit unserer Pipeline bei der Entwicklung grundlegender RS-Modelle.