Command Palette
Search for a command to run...
ELV-Halluc : Évaluation des hallucinations d'agrégation sémantique dans la compréhension des vidéos longues
Hao Lu Jiahao Wang Yaolun Zhang Ruohui Wang Xuanyu Zheng Yepeng Tang Dahua Lin Lewei Lu

Résumé
Les modèles linguistiques à grande échelle multimodaux vidéo (Video-MLLM) ont connu des progrès remarquables dans la compréhension vidéo. Toutefois, ils restent vulnérables aux hallucinations, c’est-à-dire des contenus erronés non conformes ou sans lien avec les entrées vidéo. Les précédents benchmarks dédiés aux hallucinations vidéo se concentrent principalement sur les vidéos courtes. Ils attribuent ces hallucinations à des facteurs tels que des préjugés linguistiques forts, des trames manquantes ou des biais vision-langage introduits par l’encodeur visuel. Bien que ces causes expliquent effectivement la majorité des hallucinations dans les vidéos courtes, elles simplifient excessivement la nature des hallucinations. Parfois, les modèles produisent des sorties incorrectes tout en conservant une sémantique correcte au niveau des trames. Nous appelons ce type d’hallucination hallucination par agrégation sémantique (Semantic Aggregation Hallucination, SAH), qui survient lors du processus d’agrégation des significations au niveau des trames en groupes sémantiques au niveau des événements. Étant donné que la SAH devient particulièrement critique dans les vidéos longues, en raison de la complexité sémantique accrue liée à plusieurs événements successifs, il est essentiel de distinguer et d’étudier en profondeur les causes de ce type d’hallucination.Afin de répondre à ces enjeux, nous introduisons ELV-Halluc, le premier benchmark dédié aux hallucinations dans les vidéos longues, permettant une investigation systématique de la SAH. Nos expériences confirment l’existence de la SAH et montrent qu’elle augmente avec la complexité sémantique. En outre, nous constatons que les modèles sont plus sujets à la SAH lorsque les significations évoluent rapidement. Nous discutons également de stratégies potentielles pour atténuer la SAH. Nous démontrons que l’utilisation d’une stratégie d’encodage positionnel contribue à atténuer la SAH, et que l’adoption d’une stratégie DPO (Direct Preference Optimization) améliore la capacité du modèle à distinguer les significations à l’intérieur et entre les événements. Pour soutenir ces approches, nous avons constitué un jeu de données comprenant 8 000 paires de données adverses, et obtenu des améliorations significatives sur les benchmarks ELV-Halluc et Video-MME, notamment une réduction substantielle de 27,7 % du taux de SAH.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.