Astroformer: Mehr Daten könnten nicht alles sein, was Sie für die Klassifikation benötigen

Neuere Fortschritte in Bereichen wie natürlicher Sprachverarbeitung und Computer Vision beruhen auf komplexen und umfangreichen Modellen, die mit riesigen Mengen an unbeschrifteten oder teilweise beschrifteten Daten trainiert wurden. Die Anwendung oder Bereitstellung dieser modernsten Methoden in ressourcenbeschränkten Umgebungen stellt jedoch weiterhin eine Herausforderung dar. Galaxienmorphologien sind entscheidend für das Verständnis der Prozesse, durch die Galaxien entstehen und sich entwickeln. Effiziente Methoden zur Klassifikation von Galaxienmorphologien sind notwendig, um physikalische Informationen aus heutigen astronomischen Umfragen zu extrahieren. In diesem Artikel stellen wir Astroformer vor, eine Methode, die mit geringeren Datenmengen lernt. Wir schlagen die Verwendung einer hybriden Transformer-Konvolutionsschichtarchitektur vor, die stark von dem Erfolg von CoAtNet und MaxViT inspiriert ist. Konkret nutzen wir die hybride Transformer-Konvolutionsschicht mit einem neuartigen Stapel-Design für das Netzwerk, eine alternative Herangehensweise zur Erstellung einer relativen Selbst-Attention-Schicht sowie eine sorgfältige Auswahl von Daten-Augmentierung- und Regularisierungstechniken. Unser Ansatz erreicht eine neue State-of-the-Art-Leistung bei der Vorhersage von Galaxienmorphologien aus Bildern auf dem Galaxy10 DECals-Datensatz, einem wissenschaftlichen Ziel, der aus 17.736 beschrifteten Bildern besteht und eine Top-1-Accuracy von 94,86 % erreicht – dies schlägt die bisher beste Leistung für diese Aufgabe um 4,62 Prozentpunkte. Darüber hinaus erreicht unser Ansatz auch eine neue State-of-the-Art-Leistung auf CIFAR-100 und Tiny ImageNet. Zudem stellen wir fest, dass Modelle und Trainingsmethoden, die für große Datensätze entwickelt wurden, oft in der Niedrig-Daten-Regel nicht gut funktionieren.