HyperAIHyperAI

Command Palette

Search for a command to run...

Token-Präferenz-Optimierung

Datum

vor 9 Monaten

Token Preference Optimization (TPO) ist eine neue Methode, die im Januar 2025 von der Alibaba Group und der Mohamed bin Zayed University of Artificial Intelligence vorgeschlagen wurde, um das Halluzinationsproblem großer visueller Sprachmodelle (LVLMs) zu reduzieren. Die entsprechenden Forschungsergebnisse wurden in der Publikation „Token-Präferenzoptimierung mit selbstkalibrierten visuell verankerten Belohnungen zur Halluzinationsminderung".

TPO zielt darauf ab, eine Verteilungskorrektur auf Token-Ebene zu erreichen, indem ein selbstkalibrierter visueller Ankerbelohnungsmechanismus eingeführt wird, ohne dass eine feinkörnige manuelle Annotation erforderlich ist. Dadurch kann das Modell visuellen Informationen mehr Aufmerksamkeit schenken und Halluzinationen reduzieren. Es identifiziert automatisch „visuelle Anker-Token“, die stark mit den visuellen Eingabeeinbettungen korreliert sind, und verteilt Belohnungen adaptiv basierend auf ihrer Abhängigkeit von visuellen Informationen. Im Vergleich zu herkömmlichen Belohnungen auf Satzebene kann TPO den generierten Inhalt feiner anpassen und das Halluzinationsproblem reduzieren.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Token-Präferenz-Optimierung | Wiki | HyperAI