HyperAI超神经

令牌级偏好对齐方法（Token Preference Optimization，简称 TPO）由阿里巴巴集团和穆罕默德·本·扎耶德人工智能大学于 2025 年 1 月提出的一种用于减少大型视觉语言模型 (LVLMs) 幻觉问题的新型方法。相关研究成果发表于论文「Token Preference Optimization with Self-Calibrated Visual-Anchored Rewards for Hallucination Mitigation」。

TPO 旨在通过引入自校准视觉锚定奖励机制，在无需细粒度人工标注的情况下，实现令牌级别的分布校正，让模型更关注视觉信息，减少幻觉现象。它能自动识别与输入视觉嵌入高度相关的「视觉锚定令牌」，并根据其对视觉信息的依赖程度自适应地分配奖励。相比传统的句子级奖励，TPO 能够更精细地调整生成内容，减少幻觉问题。

令牌级偏好对齐方法 Token Preference Optimization