Optimisation Des Préférences De Jetons
L'optimisation des préférences de jetons (TPO) est une nouvelle méthode proposée par Alibaba Group et l'Université Mohamed bin Zayed d'intelligence artificielle en janvier 2025 pour réduire le problème d'hallucination des grands modèles de langage visuel (LVLM). Les résultats de recherches connexes ont été publiés dans l'article «Optimisation des préférences de jetons avec des récompenses auto-calibrées à ancrage visuel pour l'atténuation des hallucinations".
TPO vise à obtenir une correction de la distribution au niveau des jetons en introduisant un mécanisme de récompense d'ancrage visuel auto-calibré sans nécessiter d'annotation manuelle fine, permettant au modèle de prêter plus d'attention aux informations visuelles et de réduire les hallucinations. Il identifie automatiquement les « jetons d’ancrage visuel » qui sont fortement corrélés avec les intégrations visuelles d’entrée et distribue de manière adaptative les récompenses en fonction de leur dépendance aux informations visuelles. Par rapport aux récompenses traditionnelles au niveau des phrases, le TPO peut ajuster plus finement le contenu généré et réduire le problème d'hallucination.