日期

6 个月前

标签

视觉语言模型（Vision-Language Model,VLM）是一种能够同时理解和处理图像/视频与文本信息的人工智能模型，可实现图像描述、视觉问答、图文检索等复杂任务，正广泛应用于内容分析、智能助手、机器人等领域。

VLM 的典型架构遵循清晰的三层信息处理流程：视觉编码器（如 ViT）将输入图像转换为抽象的视觉特征向量，投影层（如线性层或 Q-Former）将这些视觉特征对齐到语言模型的语义空间，大语言模型接收这些对齐后的特征与文本指令，进行统一的理解、推理与内容生成。

模型融合 Model Souping

Model Souping 可以通过对多个微调解的权重进行平均来生成更优的模型。

3 个月前

思维引导的强化学习框架 Guided Thought Reinforcement

GTR 能在复杂视觉环境中引导模型推理，防止「思维崩溃」

2 个月前

世界动作模型 WAM

WAM 是一种面向具身智能与机器人领域的新型 AI 基础模型架构。

1 个月前

技能 Skills

Skills 是封装知识与流程的可复用能力模块，使 AI 从通用模型转变为专业智能体

3 个月前

安全比对方法 Deep Aligned Visual Safety Prompt

有效解决了 LVLM 安全对齐中的关键挑战。

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

6 个月前

标签

具身智能

模型融合 Model Souping

Model Souping 可以通过对多个微调解的权重进行平均来生成更优的模型。

3 个月前

思维引导的强化学习框架 Guided Thought Reinforcement

GTR 能在复杂视觉环境中引导模型推理，防止「思维崩溃」

2 个月前

世界动作模型 WAM

WAM 是一种面向具身智能与机器人领域的新型 AI 基础模型架构。

1 个月前

技能 Skills

Skills 是封装知识与流程的可复用能力模块，使 AI 从通用模型转变为专业智能体

3 个月前

安全比对方法 Deep Aligned Visual Safety Prompt

有效解决了 LVLM 安全对齐中的关键挑战。

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

用 AI 构建 AI

HyperAI Newsletters

相关百科

模型融合 Model Souping

思维引导的强化学习框架 Guided Thought Reinforcement

世界动作模型 WAM

技能 Skills

安全比对方法 Deep Aligned Visual Safety Prompt

用 AI 构建 AI

HyperAI Newsletters

相关百科

模型融合 Model Souping

思维引导的强化学习框架 Guided Thought Reinforcement

世界动作模型 WAM

技能 Skills

安全比对方法 Deep Aligned Visual Safety Prompt

用 AI 构建 AI

HyperAI Newsletters

相关百科

模型融合 Model Souping

思维引导的强化学习框架 Guided Thought Reinforcement

世界动作模型 WAM

技能 Skills

安全比对方法 Deep Aligned Visual Safety Prompt

相关百科

模型融合 Model Souping

思维引导的强化学习框架 Guided Thought Reinforcement

世界动作模型 WAM

技能 Skills

安全比对方法 Deep Aligned Visual Safety Prompt

Command Palette

视觉语言模型 VLM

用 AI 构建 AI

HyperAI Newsletters

Command Palette

视觉语言模型 VLM

相关百科

模型融合 Model Souping

思维引导的强化学习框架 Guided Thought Reinforcement

世界动作模型 WAM

技能 Skills

安全比对方法 Deep Aligned Visual Safety Prompt

用 AI 构建 AI

HyperAI Newsletters

Command Palette

视觉语言模型 VLM

相关百科

模型融合 Model Souping

思维引导的强化学习框架 Guided Thought Reinforcement

世界动作模型 WAM

技能 Skills

安全比对方法 Deep Aligned Visual Safety Prompt

用 AI 构建 AI

HyperAI Newsletters

相关百科

模型融合 Model Souping

思维引导的强化学习框架 Guided Thought Reinforcement

世界动作模型 WAM

技能 Skills

安全比对方法 Deep Aligned Visual Safety Prompt

相关百科

模型融合 Model Souping

思维引导的强化学习框架 Guided Thought Reinforcement

世界动作模型 WAM

技能 Skills

安全比对方法 Deep Aligned Visual Safety Prompt