vor 2 Monaten

MobileVLM: Ein schnelles, leistungsfähiges und offenes visuelles Sprachassistenten-System für mobile Geräte

Xiangxiang Chu; Limeng Qiao; Xinyang Lin; Shuang Xu; Yang Yang; Yiming Hu; Fei Wei; Xinyu Zhang; Bo Zhang; Xiaolin Wei; Chunhua Shen

Details der Forschungsarbeit anzeigen

MobileVLM: Ein schnelles, leistungsfähiges und offenes visuelles Sprachassistenten-System für mobile Geräte

Abstract

Wir stellen MobileVLM vor, ein leistungsfähiges multimodales Vision-Language-Modell (MMVLM), das speziell für die Ausführung auf mobilen Geräten entwickelt wurde. Es ist eine Kombination aus zahlreichen architektonischen Design- und Technikentscheidungen, die auf mobile Anwendungen abgestimmt sind. Diese umfasst eine Reihe von Sprachmodellen mit 1,4 Milliarden und 2,7 Milliarden Parametern, die von Grund auf neu trainiert wurden, ein multimodales Visionsmodell, das im CLIP-Stil vortrainiert wurde, sowie eine effiziente Interaktion zwischen den Modalitäten durch einen Projektionsmechanismus. Wir evaluieren MobileVLM anhand mehrerer typischer VLM-Benchmarks. Unsere Modelle zeigen vergleichbare Leistungen im Vergleich zu einigen viel größeren Modellen. Von besonderer Bedeutung ist jedoch, dass wir die Inferenzgeschwindigkeit sowohl auf einem Qualcomm Snapdragon 888 CPU als auch auf einem NVIDIA Jetson Orin GPU gemessen haben und jeweils Spitzenleistungen von 21,5 Tokens pro Sekunde und 65,3 Tokens pro Sekunde erzielen konnten. Unser Code wird unter folgender URL zur Verfügung gestellt: https://github.com/Meituan-AutoML/MobileVLM.