Command Palette
Search for a command to run...
视觉语言模型 VLM
Date
Tags
视觉语言模型(Vision-Language Model,VLM)是一种能够同时理解和处理图像/视频与文本信息的人工智能模型,可实现图像描述、视觉问答、图文检索等复杂任务,正广泛应用于内容分析、智能助手、机器人等领域。
VLM 的典型架构遵循清晰的三层信息处理流程:视觉编码器(如 ViT)将输入图像转换为抽象的视觉特征向量,投影层(如线性层或 Q-Former)将这些视觉特征对齐到语言模型的语义空间,大语言模型接收这些对齐后的特征与文本指令,进行统一的理解、推理与内容生成。
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.