日期

8 个月前

组织

论文 URL

标签

标记感知编辑（Token-Aware Editing，TAE）是由北京航空航天大学研究团队于 2025 年 5 月提出的，相关研究成果发表于论文为「Token-Aware Editing of Internal Activations for Large Language Model Alignment」。

TAE 能够充分利用激活空间中的标记级对齐信息，从而实现更优的干预后性能。具体而言，互信息引导图聚合（Mutual Information-guided Graph Aggregation,MIG）模块首先构建一个互信息引导图，以利用标记的信息交互进行激活增强，从而提高对齐探测并促进干预。随后，错位感知自适应干预（Misalignment-aware Adaptive Intervention,MAI）从标记表示和预测中全面感知标记级错位程度，以指导编辑强度的自适应调整，从而提高最终对齐性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

8 个月前

组织

论文 URL

TuEspD5VkJ

标签

人工智能

安全比对方法 Deep Aligned Visual Safety Prompt

有效解决了 LVLM 安全对齐中的关键挑战。

3 个月前

SoCE 类专家 Soup

SoCE 是一种基于自动类别感知专家选择机制、结合多基准任务的模型优化范式。

3 个月前

稀疏化接码树 Decoding Tree Sketching

利用 GPU 并行性高效扩展解码树，实现推理路径的快速且可扩展的优化。

3 个月前

Decomposed Forward Pass（DePass）

DePass 用于通过分解前向传递来解释 Transformer 模型。

3 个月前

指纹识别方法 iSeal

iSeal 在 12 个 LLM 上对超过 10 次攻击实现 100% 指纹成功率（FSR）。

3 个月前

技能 Skills

Skills 是封装知识与流程的可复用能力模块，使 AI 从通用模型转变为专业智能体

3 个月前

世界动作模型 WAM

WAM 是一种面向具身智能与机器人领域的新型 AI 基础模型架构。

1 个月前

WorldGen

WorldGen 能够打造出几何统一、视觉丰富且实时渲染高效的世界。

3 个月前

模型融合 Model Souping

Model Souping 可以通过对多个微调解的权重进行平均来生成更优的模型。

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

标记感知编辑 TAE

用 AI 构建 AI

HyperAI Newsletters

Command Palette

标记感知编辑 TAE

相关百科

安全比对方法 Deep Aligned Visual Safety Prompt

SoCE 类专家 Soup

稀疏化接码树 Decoding Tree Sketching

Decomposed Forward Pass（DePass）

指纹识别方法 iSeal

技能 Skills

世界动作模型 WAM

WorldGen

模型融合 Model Souping

用 AI 构建 AI

HyperAI Newsletters

Command Palette

标记感知编辑 TAE

相关百科

安全比对方法 Deep Aligned Visual Safety Prompt

SoCE 类专家 Soup

稀疏化接码树 Decoding Tree Sketching

Decomposed Forward Pass（DePass）

指纹识别方法 iSeal

技能 Skills

世界动作模型 WAM

WorldGen

模型融合 Model Souping

用 AI 构建 AI

HyperAI Newsletters

相关百科

安全比对方法 Deep Aligned Visual Safety Prompt

SoCE 类专家 Soup

稀疏化接码树 Decoding Tree Sketching

Decomposed Forward Pass（DePass）

指纹识别方法 iSeal

技能 Skills

世界动作模型 WAM

WorldGen

模型融合 Model Souping

相关百科

安全比对方法 Deep Aligned Visual Safety Prompt

SoCE 类专家 Soup

稀疏化接码树 Decoding Tree Sketching

Decomposed Forward Pass（DePass）

指纹识别方法 iSeal

技能 Skills

世界动作模型 WAM

WorldGen

模型融合 Model Souping