HyperAIHyperAI
vor 17 Tagen

EfficientViT: Multi-Scale Linear Attention für hochauflösende dichte Vorhersagen

Han Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han
EfficientViT: Multi-Scale Linear Attention für hochauflösende dichte Vorhersagen
Abstract

Hochauflösende dichte Vorhersagen ermöglichen zahlreiche ansprechende Anwendungen in der realen Welt, wie beispielsweise computergestützte Fotografie oder autonomes Fahren. Allerdings verursachen die immensen Rechenkosten eine erhebliche Herausforderung bei der Bereitstellung modernster hochauflösender dichter Vorhersagemodelle auf hardwarebasierten Geräten. In dieser Arbeit stellen wir EfficientViT vor, eine neue Familie hochauflösender Visionmodelle mit neuartigem multiskalarem linearem Attention. Im Gegensatz zu früheren Modellen, die auf rechenintensive Softmax-Attention, hardwareunfreundliche große Kernel-Faltungen oder komplizierte Topologiestrukturen setzen, um gute Leistungen zu erzielen, erreicht unser multiscales lineares Attention sowohl einen globalen Empfindungsfeldbereich als auch multiskalare Lernfähigkeit – zwei erwünschte Eigenschaften für hochauflösende dichte Vorhersagen – mit lediglich leichtgewichtigen und hardwareeffizienten Operationen. Dadurch erzielt EfficientViT bemerkenswerte Leistungsverbesserungen gegenüber vorherigen State-of-the-Art-Modellen und gleichzeitig signifikante Geschwindigkeitssteigerungen auf unterschiedlichen Hardwareplattformen, einschließlich mobiler CPUs, Edge-GPUs und Cloud-GPUs. Ohne Leistungsverlust auf Cityscapes erreicht EfficientViT eine bis zu 13,9-fache und 6,2-fache Reduktion der GPU-Latenz gegenüber SegFormer und SegNeXt, respektive. Für die Super-Resolution erzielt EfficientViT bis zu 6,4-fache Geschwindigkeitssteigerung gegenüber Restormer, wobei gleichzeitig eine Verbesserung von 0,11 dB im PSNR erreicht wird. Für Segment Anything erreicht EfficientViT eine bis zu 48,9-fach höhere Durchsatzleistung auf einer A100-GPU und gleichzeitig eine leicht bessere Leistung bei der Zero-Shot-Instanzsegmentierung auf COCO.

EfficientViT: Multi-Scale Linear Attention für hochauflösende dichte Vorhersagen | Neueste Forschungsarbeiten | HyperAI