Command Palette
Search for a command to run...
Aakriti Agrawal Gouthaman KV Rohith Aralikatti Gauri Jagatap Jiaxin Yuan Vijay Kamarshi Andrea Fanelli Furong Huang

要約
本研究では、現在広く用いられているLVLMアーキテクチャに言語モダリティへの固有のバイアスが存在することを指摘する。この原因の大部分は、視覚的埋め込みを入力テキスト系列の末尾に単純に連結するという一般的な手法に起因している。これを解決するために、平均プーリングによる視覚特徴をテキスト埋め込みに統合するシンプルでありながら効果的な手法を提案する。本手法は、既存のベンチマークにおいて視覚的接地性能を顕著に向上させるとともに、幻覚の発生を大幅に低減することを実証した。平均プーリングは、視覚情報の統合に際して直感的で堅牢かつ効率的な手段を提供するが、より洗練された融合手法が視覚的接地性およびクロスモーダル整合性をさらに高める可能性があると考えられる。本研究の主な目的は、モダリティの不均衡が幻覚に与える影響を明らかにし、視覚情報を用いてテキスト埋め込みを精緻化することでこの問題が緩和されることを示すことにあり、高度な融合戦略の検討は今後の課題として残す。