HyperAIHyperAI
il y a 17 jours

Atténuation des hallucinations dans les grands modèles multimodaux par une mise au point d'instructions robuste

Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang
Atténuation des hallucinations dans les grands modèles multimodaux par une mise au point d'instructions robuste
Résumé

Malgré les progrès prometteurs observés dans les tâches multimodales, les grands modèles multimodaux actuels (LMMs) sont sujets à des hallucinations, c’est-à-dire à produire des descriptions incohérentes par rapport à l’image associée et aux instructions humaines. Ce papier aborde ce problème en introduisant le premier ensemble de données de calibration visuelle à grande échelle et à grande diversité, nommé Large-scale Robust Visual (LRV)-Instruction. Notre ensemble de données comprend 400 000 instructions visuelles générées par GPT-4, couvrant 16 tâches vision-langage avec des instructions et réponses ouvertes. Contrairement aux études existantes qui se concentrent principalement sur des exemples d’instructions positives, nous avons conçu LRV-Instruction pour inclure à la fois des instructions positives et négatives, afin d’assurer une calibration visuelle plus robuste. Nos instructions négatives sont définies à trois niveaux sémantiques : (i) manipulation d’objets inexistant, (ii) manipulation d’objets existants et (iii) manipulation de connaissances. Pour mesurer efficacement les hallucinations générées par les LMMs, nous proposons GPT4-Assisted Visual Instruction Evaluation (GAVIE), une méthode stable d’évaluation de la calibration visuelle, comparable à celle des experts humains. GAVIE ne nécessite pas d’étiquettes de vérité terrain annotées par des humains et peut s’adapter à divers formats d’instructions. Nous menons des expériences approfondies afin d’analyser les hallucinations des LMMs. Nos résultats montrent que les LMMs existants présentent des hallucinations significatives lorsqu’ils sont confrontés à nos instructions négatives, en particulier les instructions de type « manipulation d’objets existants » et « manipulation de connaissances ». En outre, nous parvenons à réduire efficacement les hallucinations en fine-tunant MiniGPT4 et mPLUG-Owl sur LRV-Instruction, tout en améliorant leurs performances sur plusieurs jeux de données publics par rapport aux méthodes de pointe. Nous observons également que le maintien d’un ratio équilibré entre instances positives et négatives dans les données d’entraînement conduit à un modèle plus robuste. Le code et les données sont disponibles à l’adresse suivante : https://github.com/FuxiaoLiu/LRV-Instruction.

Atténuation des hallucinations dans les grands modèles multimodaux par une mise au point d'instructions robuste | Articles de recherche récents | HyperAI