BossNAS: Untersuchung hybrider CNN-Transformer mit blockweise selbstüberwachter neuronaler Architektursuche

Eine Vielzahl kürzlicher Durchbrüche bei handgefertigten neuronalen Architekturen für visuelle Erkennung hat die dringende Notwendigkeit hervorgehoben, hybride Architekturen aus diversifizierten Bausteinen zu erforschen. Gleichzeitig erleben neuronale Architektursuchmethoden (Neural Architecture Search, NAS) einen starken Aufschwung, da sie die Reduktion menschlicher Anstrengungen versprechen. Obwohl, bleibt die Frage offen, ob NAS-Methoden effizient und effektiv mit diversifizierten Suchräumen umgehen können, die unterschiedliche Kandidaten enthalten (z. B. CNNs und Transformer). In dieser Arbeit präsentieren wir Block-wisely Self-supervised Neural Architecture Search (BossNAS), eine selbstüberwachte NAS-Methode, die das Problem ungenauer Architekturbewertung durch einen großen Gewichtsteilungsraum und verzerrte Supervision in früheren Ansätzen adressiert. Konkret faktorisieren wir den Suchraum in Blöcke und nutzen ein neuartiges selbstüberwachtes Trainingsverfahren, namens Ensemble Bootstrapping, um jeden Block separat zu trainieren, bevor sie gemeinsam in Richtung des Populationszentrums gesucht werden. Darüber hinaus stellen wir den HyTra-Suchraum vor, einen gewebelike hybriden CNN-Transformer-Suchraum mit suchbaren Downsampling-Positionen. Auf diesem anspruchsvollen Suchraum erreicht unser gesuchtes Modell, BossNet-T, eine Genauigkeit von bis zu 82,5 % auf ImageNet und übertrifft EfficientNet um 2,4 % bei vergleichbarer Rechenzeit. Zudem erzielt unsere Methode eine überlegene Architekturbewertungsgenauigkeit mit einer Spearman-Korrelation von 0,78 und 0,76 auf dem klassischen MBConv-Suchraum mit ImageNet und auf dem NATS-Bench-Größen-Suchraum mit CIFAR-100, wobei sie die derzeit besten NAS-Methoden übertrifft. Code: https://github.com/changlin31/BossNAS