HyperAIHyperAI

Command Palette

Search for a command to run...

Optimisation Des Préférences De Jetons

Date

il y a 9 mois

L'optimisation des préférences de jetons (TPO) est une nouvelle méthode proposée par Alibaba Group et l'Université Mohamed bin Zayed d'intelligence artificielle en janvier 2025 pour réduire le problème d'hallucination des grands modèles de langage visuel (LVLM). Les résultats de recherches connexes ont été publiés dans l'article «Optimisation des préférences de jetons avec des récompenses auto-calibrées à ancrage visuel pour l'atténuation des hallucinations".

TPO vise à obtenir une correction de la distribution au niveau des jetons en introduisant un mécanisme de récompense d'ancrage visuel auto-calibré sans nécessiter d'annotation manuelle fine, permettant au modèle de prêter plus d'attention aux informations visuelles et de réduire les hallucinations. Il identifie automatiquement les « jetons d’ancrage visuel » qui sont fortement corrélés avec les intégrations visuelles d’entrée et distribue de manière adaptative les récompenses en fonction de leur dépendance aux informations visuelles. Par rapport aux récompenses traditionnelles au niveau des phrases, le TPO peut ajuster plus finement le contenu généré et réduire le problème d'hallucination.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Optimisation Des Préférences De Jetons | Wiki | HyperAI