HyperAIHyperAI
vor 17 Tagen

Conviformer: durch Faltungen geleitete Vision-Transformer

Mohit Vaishnav, Thomas Fel, Ivań Felipe Rodríguez, Thomas Serre
Conviformer: durch Faltungen geleitete Vision-Transformer
Abstract

Vision-Transformers sind heutzutage die Standardwahl für Aufgaben der Bildklassifikation. Es gibt zwei Hauptkategorien solcher Aufgaben: feinkörnige und grobkörnige Klassifikation. Bei der feinkörnigen Klassifikation ist es entscheidend, subtile Unterschiede zu erkennen, da die Unterklassen äußerst ähnlich sind. Diese feinen Unterschiede gehen oft verloren, wenn Bilder verkleinert werden, um den Speicher- und Rechenaufwand von Vision-Transformern (ViT) zu reduzieren. In dieser Arbeit präsentieren wir eine umfassende Analyse und beschreiben die kritischen Komponenten zur Entwicklung eines Systems für die feinkörnige Kategorisierung von Pflanzen anhand von Herbariumblättern. Unsere umfangreichen experimentellen Untersuchungen zeigten, dass eine verbesserte Datenaugmentation und die Fähigkeit moderner neuronalen Netze, hochdimensionale Bilder zu verarbeiten, unerlässlich sind. Außerdem stellen wir eine neue architektonische Lösung namens Conviformer vor, eine convolutionale Transformer-Architektur, die im Gegensatz zum verbreiteten Vision Transformer (ConViT) hochauflösende Bilder verarbeiten kann, ohne dass der Speicher- oder Rechenaufwand explosionsartig ansteigt. Darüber hinaus führen wir eine neuartige, verbesserte Vorverarbeitungsmethode namens PreSizer ein, die Bilder effizienter skaliert, während sie das ursprüngliche Seitenverhältnis bewahrt – eine Eigenschaft, die sich als entscheidend für die Klassifikation natürlicher Pflanzen erwiesen hat. Mit unserem einfachen, aber leistungsfähigen Ansatz erreichen wir den Stand der Technik (SoTA) auf den Datensätzen Herbarium 202x und iNaturalist 2019.