Command Palette
Search for a command to run...
Visuelles Sprachmodell (VLM)
Date
Ein visuelles Sprachmodell (VLM) ist ein Modell der künstlichen Intelligenz, das Bild-/Video- und Textinformationen gleichzeitig verstehen und verarbeiten kann. Es kann komplexe Aufgaben wie Bildbeschreibung, visuelle Fragebeantwortung und Bild-Text-Suche durchführen und findet breite Anwendung in der Inhaltsanalyse, bei intelligenten Assistenten, in der Robotik und anderen Bereichen.
Eine typische VLM-Architektur folgt einem klaren dreischichtigen Informationsverarbeitungsablauf: Der visuelle Encoder (z. B. ViT) wandelt das Eingabebild in einen abstrakten visuellen Merkmalsvektor um, die Projektionsschicht (z. B. eine lineare Schicht oder Q-Former) richtet diese visuellen Merkmale am semantischen Raum des Sprachmodells aus, und das große Sprachmodell empfängt diese ausgerichteten Merkmale und Textanweisungen, um einheitliches Verständnis, Schlussfolgerungen und Inhaltsgenerierung durchzuführen.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.