Token-Präferenz-Optimierung
Token Preference Optimization (TPO) ist eine neue Methode, die im Januar 2025 von der Alibaba Group und der Mohamed bin Zayed University of Artificial Intelligence vorgeschlagen wurde, um das Halluzinationsproblem großer visueller Sprachmodelle (LVLMs) zu reduzieren. Die entsprechenden Forschungsergebnisse wurden in der Publikation „Token-Präferenzoptimierung mit selbstkalibrierten visuell verankerten Belohnungen zur Halluzinationsminderung".
TPO zielt darauf ab, eine Verteilungskorrektur auf Token-Ebene zu erreichen, indem ein selbstkalibrierter visueller Ankerbelohnungsmechanismus eingeführt wird, ohne dass eine feinkörnige manuelle Annotation erforderlich ist. Dadurch kann das Modell visuellen Informationen mehr Aufmerksamkeit schenken und Halluzinationen reduzieren. Es identifiziert automatisch „visuelle Anker-Token“, die stark mit den visuellen Eingabeeinbettungen korreliert sind, und verteilt Belohnungen adaptiv basierend auf ihrer Abhängigkeit von visuellen Informationen. Im Vergleich zu herkömmlichen Belohnungen auf Satzebene kann TPO den generierten Inhalt feiner anpassen und das Halluzinationsproblem reduzieren.