HyperAI

Résumé

Dans ce travail, nous identifions un biais intrinsèque des architectures LVLM actuelles en faveur de la modalité linguistique, principalement dû à la pratique courante de simplement ajouter les embeddings visuels à la séquence d'entrée textuelle. Pour y remédier, nous proposons une méthode simple mais efficace, qui améliore les embeddings textuels en intégrant des caractéristiques visuelles moyennées par agrégation. Notre approche améliore de manière évidente l'ancrage visuel et réduit significativement les hallucinations sur des benchmarks établis. Bien que le pooling moyen constitue un moyen direct, robuste et efficace d'intégrer les informations visuelles, nous estimons que des méthodes de fusion plus sophistiquées pourraient encore améliorer davantage l'ancrage visuel et l'alignement intermodaux. Étant donné que l'objectif principal de ce travail est de mettre en évidence l'asymétrie de modalité et son impact sur les hallucinations — ainsi que de montrer que le raffinement des embeddings textuels à l'aide d'informations visuelles atténue ce problème — nous laissons l'exploration de stratégies de fusion avancées pour des travaux futurs.

Vers une réduction des hallucinations dans les grands modèles vision-langage par le raffinement des embeddings textuels

Aakriti Agrawal Gouthaman KV Rohith Aralikatti Gauri Jagatap Jiaxin Yuan Vijay Kamarshi Andrea Fanelli Furong Huang

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

Vers une réduction des hallucinations dans les grands modèles vision-langage par le raffinement des embeddings textuels

Aakriti Agrawal Gouthaman KV Rohith Aralikatti Gauri Jagatap Jiaxin Yuan Vijay Kamarshi Andrea Fanelli Furong Huang

Résumé

Construire l'IA avec l'IA

Hyper Newsletters