HyperAI超神经

令牌级偏好对齐方法 Token Preference Optimization

令牌级偏好对齐方法(Token Preference Optimization,简称 TPO)由阿里巴巴集团和穆罕默德·本·扎耶德人工智能大学于 2025 年 1 月提出的一种用于减少大型视觉语言模型 (LVLMs) 幻觉问题的新型方法。相关研究成果发表于论文「Token Preference Optimization with Self-Calibrated Visual-Anchored Rewards for Hallucination Mitigation」。

TPO 旨在通过引入自校准视觉锚定奖励机制,在无需细粒度人工标注的情况下,实现令牌级别的分布校正,让模型更关注视觉信息,减少幻觉现象。它能自动识别与输入视觉嵌入高度相关的「视觉锚定令牌」,并根据其对视觉信息的依赖程度自适应地分配奖励 。相比传统的句子级奖励,TPO 能够更精细地调整生成内容,减少幻觉问题。