Zur Minderung von Halluzinationen in großen Vision-Sprach-Modellen durch die Verfeinerung von textuellen Embeddings
Aakriti Agrawal Gouthaman KV Rohith Aralikatti Gauri Jagatap Jiaxin Yuan Vijay Kamarshi Andrea Fanelli Furong Huang

Abstract
In dieser Arbeit identifizieren wir eine inhärente Verzerrung bestehender LVLM-Architekturen zugunsten der Sprachmodalität, die hauptsächlich auf der gängigen Praxis beruht, visuelle Embeddings einfach an die Eingabefolge von Textdaten anzuhängen. Um diesem Problem entgegenzuwirken, schlagen wir eine einfache, aber effektive Methode vor, die textuelle Embeddings durch die Integration durchschnittlich gepoolter visueller Merkmale verfeinert. Unser Ansatz verbessert die visuelle Grundlage signifikant und verringert die Generierung von Halluzinationen erheblich auf etablierten Benchmarks. Obwohl das Durchschnittspooling eine unkomplizierte, robuste und effiziente Methode darstellt, visuelle Informationen zu integrieren, vermuten wir, dass anspruchsvollere Fusionsstrategien die visuelle Grundlage und die Ausrichtung zwischen Modalitäten noch weiter verbessern könnten. Da der Hauptfokus dieser Arbeit darin liegt, die Modality-Imbalance und deren Einfluss auf Halluzinationen aufzuzeigen – sowie zu belegen, dass die Verfeinerung textueller Embeddings mit visuellen Informationen diese Problematik verringert – belassen wir die Untersuchung fortgeschrittener Fusionsansätze für zukünftige Arbeiten.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.