Command Palette
Search for a command to run...
MobileViTv3: mobilefreundlicher Vision Transformer mit einfacher und effektiver Fusion lokaler, globaler und Eingabefeatures
MobileViTv3: mobilefreundlicher Vision Transformer mit einfacher und effektiver Fusion lokaler, globaler und Eingabefeatures
Shakti N. Wadekar Abhishek Chaurasia
Zusammenfassung
MobileViT (MobileViTv1) kombiniert konvolutionale neuronale Netzwerke (CNNs) und Vision-Transformer (ViTs), um leichtgewichtige Modelle für mobile Vision-Aufgaben zu erstellen. Obwohl der Hauptblock von MobileViTv1 führende Ergebnisse auf State-of-the-Art-Niveau erzielt, verursacht der darin enthaltene Fusion-Block Skalierungsprobleme und stellt eine komplexe Lernaufgabe dar. Wir schlagen Änderungen am Fusion-Block vor, die einfach und wirksam sind, um den MobileViTv3-Block zu entwickeln, der sowohl Skalierbarkeit verbessert als auch die Lernaufgabe vereinfacht. Mit unserem vorgeschlagenen MobileViTv3-Block wurden die Modelle MobileViTv3-XXS, XS und S erstellt, die auf den Datensätzen ImageNet-1k, ADE20K, COCO und PascalVOC2012 die Leistung von MobileViTv1 übertreffen. Auf ImageNet-1K erreichen MobileViTv3-XXS und MobileViTv3-XS jeweils eine Verbesserung um 2 % bzw. 1,9 % gegenüber MobileViTv1-XXS und MobileViTv1-XS. Die kürzlich vorgestellte Architektur MobileViTv2 entfernt den Fusion-Block und verwendet Transformer mit linearer Komplexität, um eine bessere Leistung als MobileViTv1 zu erzielen. Wir integrieren unseren vorgeschlagenen Fusion-Block in MobileViTv2, um die Modelle MobileViTv3-0,5, 0,75 und 1,0 zu erstellen. Diese neuen Modelle erzielen auf den Datensätzen ImageNet-1k, ADE20K, COCO und PascalVOC2012 höhere Genauigkeitswerte im Vergleich zu MobileViTv2. Auf dem ImageNet-1K-Datensatz übertrifft MobileViTv3-0,5 MobileViTv2-0,5 um 2,1 % und MobileViTv3-0,75 übertrifft MobileViTv2-0,75 um 1,0 %. Für die Segmentierungsaufgabe erreicht MobileViTv3-1,0 auf dem ADE20K-Datensatz eine um 2,07 % und auf dem PascalVOC2012-Datensatz eine um 1,1 % höhere mIOU im Vergleich zu MobileViTv2-1,0. Unsere Quellcodes und die trainierten Modelle sind unter folgender Adresse verfügbar: https://github.com/micronDLA/MobileViTv3