HyperAI초신경

토큰 선호도 최적화

토큰 선호도 최적화(TPO)는 알리바바 그룹과 모하메드 빈 자이드 인공지능 대학이 2025년 1월에 제안한 새로운 방법으로, 대규모 시각 언어 모델(LVLM)의 환각 문제를 줄이기 위해 고안되었습니다. 관련 연구 결과는 논문 "에 게재되었습니다.환각 완화를 위한 자체 보정 시각적 고정 보상을 통한 토큰 선호도 최적화".

TPO는 세부적인 수동 주석 없이도 자체 보정된 시각적 앵커링 보상 메커니즘을 도입하여 토큰 수준의 분포 보정을 달성하는 것을 목표로 하며, 이를 통해 모델이 시각 정보에 더 많은 주의를 기울이고 환각을 줄일 수 있도록 합니다. 입력 시각적 임베딩과 높은 상관관계가 있는 "시각적 앵커 토큰"을 자동으로 식별하고 시각적 정보에 대한 종속성에 따라 보상을 적응적으로 분배합니다. 기존의 문장 수준 보상과 비교했을 때, TPO는 생성된 콘텐츠를 더욱 세밀하게 조정하고 환각 문제를 줄일 수 있습니다.