Command Palette
Search for a command to run...
ELV-Halluc: Benchmarking semantische Aggregation-Halluzinationen im Verständnis langer Videos
Hao Lu Jiahao Wang Yaolun Zhang Ruohui Wang Xuanyu Zheng Yepeng Tang Dahua Lin Lewei Lu

Abstract
Multimodale große Sprachmodelle für Videos (Video-MLLMs) haben erhebliche Fortschritte im Bereich der Videoverstehens erzielt. Dennoch sind sie anfällig für Halluzinationen, die sich aus Inhalten ergeben, die mit den Eingabevideos inkonsistent oder gar unzusammenhängend sind. Bisherige Benchmarks zur Video-Halluzination konzentrieren sich vorwiegend auf Kurzvideos und weisen Halluzinationen auf Faktoren wie starke Sprachvorgaben, fehlende Frames oder durch den visuellen Encoder eingeführte visuell-sprachliche Verzerrungen zurück. Obwohl diese Ursachen tatsächlich die meisten Halluzinationen in Kurzvideos erklären, vereinfachen sie die zugrundeliegenden Mechanismen zu sehr. Gelegentlich generieren Modelle falsche Ausgaben, wobei jedoch die semantischen Inhalte auf Frame-Ebene korrekt sind. Wir bezeichnen diesen Halluzinations-Typ als semantische Aggregations-Halluzination (Semantic Aggregation Hallucination, SAH), die entsteht, wenn semantische Informationen auf Frame-Ebene zu semantischen Gruppen auf Ereignisebene aggregiert werden. Da SAH aufgrund der erhöhten semantischen Komplexität über mehrere Ereignisse hinweg in langen Videos besonders kritisch wird, ist es unerlässlich, diese Art von Halluzination zu isolieren und umfassend zu untersuchen. Um diese Herausforderungen anzugehen, stellen wir ELV-Halluc vor – den ersten Benchmark, der speziell der Halluzination in langen Videos gewidmet ist und eine systematische Analyse von SAH ermöglicht. Unsere Experimente bestätigen die Existenz von SAH und zeigen, dass deren Häufigkeit mit steigender semantischer Komplexität zunimmt. Zudem stellen wir fest, dass Modelle besonders anfällig für SAH bei rasch wechselnden semantischen Strukturen sind. Darüber hinaus diskutieren wir potenzielle Ansätze zur Minderung von SAH. Wir zeigen, dass eine geeignete Positionscodierung zur Linderung von SAH beiträgt, und integrieren zudem eine DPO-Strategie, um die Fähigkeit des Modells zu verbessern, Semantik innerhalb und zwischen Ereignissen klar zu unterscheiden. Zur Unterstützung dieser Ansätze haben wir eine Datensammlung aus 8.000 adversarialen Datensatzpaaren zusammengestellt und konnten sowohl auf ELV-Halluc als auch auf Video-MME signifikante Verbesserungen erzielen, darunter eine erhebliche Reduktion des SAH-Anteils um 27,7 %.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.