Command Palette
Search for a command to run...
Hao Lu Jiahao Wang Yaolun Zhang Ruohui Wang Xuanyu Zheng Yepeng Tang Dahua Lin Lewei Lu

要約
動画マルチモーダル大規模言語モデル(Video-MLLM)は、動画理解分野において顕著な進展を遂げている。しかし、動画入力と矛盾または無関係な内容を生成する「幻覚(hallucination)」のリスクに依然として脆弱である。これまでの動画幻覚評価ベンチマークは主に短時間動画に焦点を当てており、強力な言語事前知識やフレームの欠落、視覚エンコーダーによって導入される視覚-言語バイアスといった要因を幻覚の原因としている。これらの要因は確かに短時間動画における幻覚の大部分を説明できるが、幻覚の原因を過度に単純化している。実際には、モデルが誤った出力を生成する一方で、フレームレベルの意味は正しく保たれているケースも存在する。このような幻覚を、フレームレベルの意味をイベントレベルの意味群に統合する過程で生じる現象として「意味統合幻覚(Semantic Aggregation Hallucination: SAH)」と呼ぶ。長時間動画では複数のイベントにわたる意味の複雑さが増すため、SAHは特に深刻な問題となる。したがって、このタイプの幻覚の原因を明確に分離し、体系的に検証することが不可欠である。上記の課題に対処するため、本研究では長時間動画における幻覚に特化した初のベンチマーク「ELV-Halluc」を提案する。これにより、SAHの系統的な分析が可能となる。実験の結果、SAHが確かに存在することを確認し、意味の複雑さが増すほど幻覚の発生率が上昇することを示した。さらに、急速に変化する意味構造において、モデルがSAHに陥りやすくなることも明らかになった。また、SAHを緩和する可能性のあるアプローチについても検討した。位置符号化戦略がSAHの軽減に寄与することを実証し、さらにDPO(Direct Preference Optimization)戦略を導入することで、イベント内およびイベント間の意味の区別能力を向上させた。本研究の実現を支えるために、8,000組の敵対的データペアから構成されるデータセットを構築し、ELV-HallucおよびVideo-MMEの両方で性能向上を達成。特にSAHの発生率は27.7%も大幅に削減された。