HyperAIHyperAI

Command Palette

Search for a command to run...

MobileViTv3: mobilefreundlicher Vision Transformer mit einfacher und effektiver Fusion lokaler, globaler und Eingabefeatures

Shakti N. Wadekar Abhishek Chaurasia

Zusammenfassung

MobileViT (MobileViTv1) kombiniert konvolutionale neuronale Netzwerke (CNNs) und Vision-Transformer (ViTs), um leichtgewichtige Modelle für mobile Vision-Aufgaben zu erstellen. Obwohl der Hauptblock von MobileViTv1 führende Ergebnisse auf State-of-the-Art-Niveau erzielt, verursacht der darin enthaltene Fusion-Block Skalierungsprobleme und stellt eine komplexe Lernaufgabe dar. Wir schlagen Änderungen am Fusion-Block vor, die einfach und wirksam sind, um den MobileViTv3-Block zu entwickeln, der sowohl Skalierbarkeit verbessert als auch die Lernaufgabe vereinfacht. Mit unserem vorgeschlagenen MobileViTv3-Block wurden die Modelle MobileViTv3-XXS, XS und S erstellt, die auf den Datensätzen ImageNet-1k, ADE20K, COCO und PascalVOC2012 die Leistung von MobileViTv1 übertreffen. Auf ImageNet-1K erreichen MobileViTv3-XXS und MobileViTv3-XS jeweils eine Verbesserung um 2 % bzw. 1,9 % gegenüber MobileViTv1-XXS und MobileViTv1-XS. Die kürzlich vorgestellte Architektur MobileViTv2 entfernt den Fusion-Block und verwendet Transformer mit linearer Komplexität, um eine bessere Leistung als MobileViTv1 zu erzielen. Wir integrieren unseren vorgeschlagenen Fusion-Block in MobileViTv2, um die Modelle MobileViTv3-0,5, 0,75 und 1,0 zu erstellen. Diese neuen Modelle erzielen auf den Datensätzen ImageNet-1k, ADE20K, COCO und PascalVOC2012 höhere Genauigkeitswerte im Vergleich zu MobileViTv2. Auf dem ImageNet-1K-Datensatz übertrifft MobileViTv3-0,5 MobileViTv2-0,5 um 2,1 % und MobileViTv3-0,75 übertrifft MobileViTv2-0,75 um 1,0 %. Für die Segmentierungsaufgabe erreicht MobileViTv3-1,0 auf dem ADE20K-Datensatz eine um 2,07 % und auf dem PascalVOC2012-Datensatz eine um 1,1 % höhere mIOU im Vergleich zu MobileViTv2-1,0. Unsere Quellcodes und die trainierten Modelle sind unter folgender Adresse verfügbar: https://github.com/micronDLA/MobileViTv3


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MobileViTv3: mobilefreundlicher Vision Transformer mit einfacher und effektiver Fusion lokaler, globaler und Eingabefeatures | Paper | HyperAI