HyperAI

Zusammenfassung

Kürzlich haben Transformer- und Multi-Layer Perceptron (MLP)-Architekturen beeindruckende Ergebnisse bei verschiedenen Aufgaben im Bereich der Bildverarbeitung erzielt. Dennoch bleibt die effektive Kombination dieser Operatoren zu hochleistungsfähigen hybriden visuellen Architekturen weiterhin eine Herausforderung. In dieser Arbeit untersuchen wir die lernbare Kombination von Faltung, Transformer und MLP durch die Einführung eines neuartigen, einheitlichen Architektursuchansatzes. Unser Ansatz basiert auf zwei zentralen Designentscheidungen, um die Suche nach hochleistungsfähigen Netzwerken zu ermöglichen. Erstens modellieren wir die sehr unterschiedlichen, suchbaren Operatoren in einer einheitlichen Form, wodurch diese mit denselben Konfigurationsparametern beschrieben werden können. Dadurch wird die Gesamtgröße des Suchraums erheblich reduziert, und die gesamte Suchkosten werden vertretbar. Zweitens stellen wir kontextbewusste Downsampling-Module (DSMs) vor, um die Lücke zwischen den unterschiedlichen Arten von Operatoren zu verringern. Unsere vorgeschlagenen DSMs sind in der Lage, Merkmale aus verschiedenen Arten von Operatoren besser anzupassen, was entscheidend für die Identifikation hochleistungsfähiger hybrider Architekturen ist. Schließlich integrieren wir konfigurierbare Operatoren und DSMs in einen einheitlichen Suchraum und führen die Suche mit einem auf Reinforcement Learning basierenden Algorithmus durch, um die optimale Kombination der Operatoren vollständig zu erkunden. Auf diese Weise suchen wir ein Baseline-Netzwerk und skalieren es hoch, um eine Familie von Modellen namens UniNets zu erhalten, die eine deutlich bessere Genauigkeit und Effizienz als frühere ConvNets und Transformer erreichen. Insbesondere erreicht unser UniNet-B5 eine Top-1-Accuracy von 84,9 % auf ImageNet und schlägt EfficientNet-B7 sowie BoTNet-T7 jeweils mit 44 % bzw. 55 % weniger FLOPs. Bei Vortrainierung auf ImageNet-21K erreicht unser UniNet-B6 eine Accuracy von 87,4 %, wobei er Swin-L mit 51 % weniger FLOPs und 41 % weniger Parametern übertrifft. Der Quellcode ist unter https://github.com/Sense-X/UniNet verfügbar.

Zusammenfassung

Jihao Liu Xin Huang Guanglu Song Hongsheng Li Yu Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Jihao Liu Xin Huang Guanglu Song Hongsheng Li Yu Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Jihao Liu Xin Huang Guanglu Song Hongsheng Li Yu Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

UniNet: Unified Architecture Search mit Convolution, Transformer und MLP

Jihao Liu Xin Huang Guanglu Song Hongsheng Li Yu Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

UniNet: Unified Architecture Search mit Convolution, Transformer und MLP

Jihao Liu Xin Huang Guanglu Song Hongsheng Li Yu Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

UniNet: Unified Architecture Search mit Convolution, Transformer und MLP

Jihao Liu Xin Huang Guanglu Song Hongsheng Li Yu Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters