Wenn Modalitäten im Widerspruch zueinander stehen: Wie die Unsicherheit des unimodalen Schließens die Präferenzdynamik in multimodalen großen Sprachmodellen steuert
Zhuoran Zhang Tengyue Wang Xilin Gong Yang Shi Haotian Wang Di Wang Lijie Hu

Abstract
Multimodale große Sprachmodelle (MLLMs) müssen Konflikte bewältigen, wenn verschiedene Modalitäten widersprüchliche Informationen liefern – einen Prozess, den wir Modality Following nennen. Vorangegangene Arbeiten maßen dieses Verhalten lediglich anhand grober statistischer Kennwerte auf Datensatzebene und vernachlässigten dabei den Einfluss der Modellzuversicht bei unimodaler Schlussfolgerung. In diesem Paper stellen wir einen neuen Rahmen vor, der das Modality Following in zwei fundamentale Faktoren zerlegt: die relative Schlussfolgerungsunsicherheit (den modellspezifischen Vertrauensunterschied zwischen den unimodalen Vorhersagen) und die inhärente Modalitätspräferenz (eine stabile Neigung des Modells, wenn die Unsicherheiten ausgeglichen sind). Um diesen Rahmen zu validieren, erstellen wir ein steuerbares Datenset, das systematisch die Schlussfolgerungsschwierigkeit visueller und textueller Eingaben variiert. Unter Verwendung der Entropie als fein granuläres Unsicherheitsmaß entdecken wir ein universelles Gesetz: Die Wahrscheinlichkeit, einer Modalität zu folgen, nimmt monoton ab, je höher ihre relative Unsicherheit ist. An dem relativen Schwierigkeitsniveau, bei dem das Modell beide Modalitäten mit vergleichbarer Wahrscheinlichkeit befolgt – was wir den Gleichgewichtspunkt nennen –, ergibt sich ein praktischer Indikator für die inhärente Präferenz des Modells. Im Gegensatz zu traditionellen makroskopischen Verhältnissen bietet diese Messung eine konsistenterere und weniger verfälschte Methode zur Charakterisierung der Modalitätspräferenz, indem sie diese von unimodalen Fähigkeiten und datensatzbedingten Artefakten entkoppelt. Darüber hinaus zeigen Untersuchungen der Schicht-für-Schicht-Vorhersagen die interne Mechanik der Oszillation auf: In unsicheren Regionen nahe dem Gleichgewichtspunkt wechselt das Modell zwischen den Modalitäten über die Schichten hinweg, was die äußerlich beobachtete Unentschlossenheit erklärt. Zusammenfassend etablieren diese Erkenntnisse die relative Unsicherheit und die inhärente Präferenz als zwei zentrale Prinzipien des Modality Following und liefern sowohl ein quantitatives Framework als auch mechanistische Einblicke in die Art und Weise, wie MLLMs widersprüchliche Informationen verarbeiten.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.