HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 20 jours

Lorsque les modalités entrent en conflit : comment l’incertitude du raisonnement unimodal gouverne la dynamique des préférences dans les MLLMs

Zhuoran Zhang Tengyue Wang Xilin Gong Yang Shi Haotian Wang Di Wang Lijie Hu

Lorsque les modalités entrent en conflit : comment l’incertitude du raisonnement unimodal gouverne la dynamique des préférences dans les MLLMs

Résumé

Les modèles linguistiques à grande échelle multimodaux (MLLM) doivent résoudre les conflits lorsque différentes modalités fournissent des informations contradictoires, un processus que nous désignons sous le terme de suivi de modalité. Les travaux antérieurs n’ont mesuré ce comportement qu’à l’aide de statistiques brutes au niveau du jeu de données, négligeant ainsi l’impact de la confiance du modèle dans le raisonnement unimodal. Dans cet article, nous introduisons un nouveau cadre qui décompose le suivi de modalité en deux facteurs fondamentaux : l’incertitude relative du raisonnement (l’écart de confiance spécifique au cas entre les prédictions unimodales) et la préférence intrinsèque de la modalité (un biais stable du modèle lorsque les incertitudes sont équilibrées). Pour valider ce cadre, nous avons construit un jeu de données contrôlable, dont la difficulté du raisonnement des entrées visuelles et textuelles varie systématiquement. En utilisant l’entropie comme métrique fine d’incertitude, nous avons mis en évidence une loi universelle : la probabilité de suivre une modalité diminue de manière monotone avec l’augmentation de son incertitude relative. À un niveau de difficulté relative où le modèle a tendance à suivre les deux modalités avec une probabilité comparable — ce que nous appelons le point d’équilibre — nous observons un indicateur pratique de la préférence intrinsèque du modèle. Contrairement aux ratios macroscopiques traditionnels, cette mesure offre une caractérisation plus fondée et moins biaisée de la préférence modale, en la dissociant des capacités unimodales et des artefacts du jeu de données. En outre, en analysant les prédictions au niveau des couches, nous révélerons le mécanisme interne de l’oscillation : dans les régions ambiguës proches du point d’équilibre, les modèles hésitent entre les modalités au cours des différentes couches, ce qui explique l’indécision observée externement. Ensemble, ces résultats établissent l’incertitude relative et la préférence intrinsèque comme deux principes fondamentaux régissant le suivi de modalité, offrant à la fois un cadre quantitatif et une compréhension mécanistique du fonctionnement des MLLM face à des informations contradictoires.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Lorsque les modalités entrent en conflit : comment l’incertitude du raisonnement unimodal gouverne la dynamique des préférences dans les MLLMs | Articles de recherche | HyperAI