HyperAIHyperAI

Command Palette

Search for a command to run...

UniNet: Unified Architecture Search mit Convolution, Transformer und MLP

Jihao Liu Xin Huang Guanglu Song Hongsheng Li Yu Liu

Zusammenfassung

Kürzlich haben Transformer- und Multi-Layer Perceptron (MLP)-Architekturen beeindruckende Ergebnisse bei verschiedenen Aufgaben im Bereich der Bildverarbeitung erzielt. Dennoch bleibt die effektive Kombination dieser Operatoren zu hochleistungsfähigen hybriden visuellen Architekturen weiterhin eine Herausforderung. In dieser Arbeit untersuchen wir die lernbare Kombination von Faltung, Transformer und MLP durch die Einführung eines neuartigen, einheitlichen Architektursuchansatzes. Unser Ansatz basiert auf zwei zentralen Designentscheidungen, um die Suche nach hochleistungsfähigen Netzwerken zu ermöglichen. Erstens modellieren wir die sehr unterschiedlichen, suchbaren Operatoren in einer einheitlichen Form, wodurch diese mit denselben Konfigurationsparametern beschrieben werden können. Dadurch wird die Gesamtgröße des Suchraums erheblich reduziert, und die gesamte Suchkosten werden vertretbar. Zweitens stellen wir kontextbewusste Downsampling-Module (DSMs) vor, um die Lücke zwischen den unterschiedlichen Arten von Operatoren zu verringern. Unsere vorgeschlagenen DSMs sind in der Lage, Merkmale aus verschiedenen Arten von Operatoren besser anzupassen, was entscheidend für die Identifikation hochleistungsfähiger hybrider Architekturen ist. Schließlich integrieren wir konfigurierbare Operatoren und DSMs in einen einheitlichen Suchraum und führen die Suche mit einem auf Reinforcement Learning basierenden Algorithmus durch, um die optimale Kombination der Operatoren vollständig zu erkunden. Auf diese Weise suchen wir ein Baseline-Netzwerk und skalieren es hoch, um eine Familie von Modellen namens UniNets zu erhalten, die eine deutlich bessere Genauigkeit und Effizienz als frühere ConvNets und Transformer erreichen. Insbesondere erreicht unser UniNet-B5 eine Top-1-Accuracy von 84,9 % auf ImageNet und schlägt EfficientNet-B7 sowie BoTNet-T7 jeweils mit 44 % bzw. 55 % weniger FLOPs. Bei Vortrainierung auf ImageNet-21K erreicht unser UniNet-B6 eine Accuracy von 87,4 %, wobei er Swin-L mit 51 % weniger FLOPs und 41 % weniger Parametern übertrifft. Der Quellcode ist unter https://github.com/Sense-X/UniNet verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp