HyperAI

Méthode D'alignement Des Préférences MIA-DPO Pour L'amélioration De Plusieurs Images

MIA-DPO (Multi-Image Augmented Direct Preference Optimization) est une méthode d'alignement des préférences pour l'augmentation multi-images pour les grands modèles de langage visuel (LVLM). Il a été proposé conjointement par l'Université Jiao Tong de Shanghai, le Laboratoire d'intelligence artificielle de Shanghai, l'Université chinoise de Hong Kong et d'autres institutions en 2024. Les résultats de l'article associé sont "MIA-DPO : Optimisation des préférences directes augmentées multi-images pour les grands modèles vision-langage". Le cœur de cette méthode est d'étendre les données d'image unique aux données multi-images et de concevoir trois formats de données : séquence, collage de grille et image dans l'image, ce qui réduit efficacement le coût de la collecte et de l'annotation des données tout en étant hautement évolutif.

La clé du MIA-DPO est d’exploiter le mécanisme d’attention pour identifier et filtrer les réponses rejetées sur lesquelles le modèle s’est peut-être concentré par erreur, construisant ainsi des paires sélectionnées/rejetées sans s’appuyer sur des annotations manuelles ou des données supplémentaires. Les résultats expérimentaux montrent que MIA-DPO fonctionne bien sur 5 benchmarks multi-images, avec une amélioration moyenne des performances de 3,0% (sur LLaVA-v1.5) et 4,3% (sur InternLM-XC2.5), tout en ayant peu d'impact sur les capacités de compréhension d'image unique.