vor 17 Tagen

Dateneffizientes Training von CNNs und Transformers mit Coresets: Eine Stabilitätsperspektive

Animesh Gupta, Irtiza Hasan, Dilip K. Prasad, Deepak K. Gupta

Abstract

Die Auswahl von Coresets zählt zu den wirksamsten Ansätzen zur Reduzierung der Trainingszeit von CNNs. Dennoch ist bisher nur begrenzt bekannt, wie sich die resultierenden Modelle unter Variationen der Coreset-Größe sowie bei unterschiedlichen Datensätzen und Architekturen verhalten. Zudem stellt sich im Kontext des jüngsten Paradigmenwechsels hin zu transformerbasierten Modellen die offene Frage, wie Coreset-Auswahl deren Leistung beeinflusst. Es gibt mehrere ähnliche faszinierende Fragen, die für eine breite Akzeptanz von Coreset-Auswahlmethoden beantwortet werden müssen – und diese Arbeit versucht, einige dieser Fragen zu klären. Wir präsentieren eine systematische Benchmarking-Setup und führen einen strengen Vergleich verschiedener Coreset-Auswahlmethoden auf CNNs und Transformers durch. Unsere Untersuchung zeigt, dass unter bestimmten Umständen die zufällige Auswahl von Teilmengen robuster und stabiler ist als die state-of-the-art-Methoden. Wir belegen, dass das herkömmliche Konzept der gleichmäßigen Stichprobenauswahl über die verschiedenen Klassen der Daten nicht die geeignete Wahl darstellt. Vielmehr sollten die Samples adaptiv basierend auf der Komplexität der Datenverteilung innerhalb jeder Klasse ausgewählt werden. Transformers werden in der Regel auf großen Datensätzen vortrainiert, und wir zeigen, dass dies für bestimmte Ziel-Datensätze hilfreich ist, um die Leistung auch bei äußerst kleinen Coreset-Größen stabil zu halten. Zudem zeigen wir, dass bei fehlendem Vortrainings oder bei der Verwendung vortrainierter Transformer-Modelle mit nicht-natürlichen Bildern (z. B. medizinische Daten) CNNs selbst bei sehr kleinen Coreset-Größen tendenziell besser generalisieren als Transformers. Schließlich demonstrieren wir, dass im Fehlen eines geeigneten Vortrainings CNNs besser in der Lage sind, die semantische Kohärenz zwischen räumlich entfernten Objekten innerhalb eines Bildes zu lernen – und dass sie bei fast allen gewählten Coreset-Größen die Transformers übertrumpfen.