HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 16 jours

Vers une réduction des hallucinations dans les grands modèles vision-langage par le raffinement des embeddings textuels

Aakriti Agrawal Gouthaman KV Rohith Aralikatti Gauri Jagatap Jiaxin Yuan Vijay Kamarshi Andrea Fanelli Furong Huang

Vers une réduction des hallucinations dans les grands modèles vision-langage par le raffinement des embeddings textuels

Résumé

Dans ce travail, nous identifions un biais intrinsèque des architectures LVLM actuelles en faveur de la modalité linguistique, principalement dû à la pratique courante de simplement ajouter les embeddings visuels à la séquence d'entrée textuelle. Pour y remédier, nous proposons une méthode simple mais efficace, qui améliore les embeddings textuels en intégrant des caractéristiques visuelles moyennées par agrégation. Notre approche améliore de manière évidente l'ancrage visuel et réduit significativement les hallucinations sur des benchmarks établis. Bien que le pooling moyen constitue un moyen direct, robuste et efficace d'intégrer les informations visuelles, nous estimons que des méthodes de fusion plus sophistiquées pourraient encore améliorer davantage l'ancrage visuel et l'alignement intermodaux. Étant donné que l'objectif principal de ce travail est de mettre en évidence l'asymétrie de modalité et son impact sur les hallucinations — ainsi que de montrer que le raffinement des embeddings textuels à l'aide d'informations visuelles atténue ce problème — nous laissons l'exploration de stratégies de fusion avancées pour des travaux futurs.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Vers une réduction des hallucinations dans les grands modèles vision-langage par le raffinement des embeddings textuels | Articles de recherche | HyperAI