Command Palette

Search for a command to run...

令牌级偏好对齐方法 Token Preference Optimization

日期

9 个月前

令牌级偏好对齐方法(Token Preference Optimization,简称 TPO)由阿里巴巴集团和穆罕默德·本·扎耶德人工智能大学于 2025 年 1 月提出的一种用于减少大型视觉语言模型 (LVLMs) 幻觉问题的新型方法。相关研究成果发表于论文「Token Preference Optimization with Self-Calibrated Visual-Anchored Rewards for Hallucination Mitigation」。

TPO 旨在通过引入自校准视觉锚定奖励机制,在无需细粒度人工标注的情况下,实现令牌级别的分布校正,让模型更关注视觉信息,减少幻觉现象。它能自动识别与输入视觉嵌入高度相关的「视觉锚定令牌」,并根据其对视觉信息的依赖程度自适应地分配奖励 。相比传统的句子级奖励,TPO 能够更精细地调整生成内容,减少幻觉问题。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供