3ヶ月前

マルチモーダル

マルチモーダル表現

アプローチ／フレームワーク

マルチモーダル

Aakriti Agrawal Gouthaman KV Rohith Aralikatti Gauri Jagatap Jiaxin Yuan Vijay Kamarshi Andrea Fanelli Furong Huang

概要

本研究では、現在広く用いられているLVLMアーキテクチャに言語モダリティへの固有のバイアスが存在することを指摘する。この原因の大部分は、視覚的埋め込みを入力テキスト系列の末尾に単純に連結するという一般的な手法に起因している。これを解決するために、平均プーリングによる視覚特徴をテキスト埋め込みに統合するシンプルでありながら効果的な手法を提案する。本手法は、既存のベンチマークにおいて視覚的接地性能を顕著に向上させるとともに、幻覚の発生を大幅に低減することを実証した。平均プーリングは、視覚情報の統合に際して直感的で堅牢かつ効率的な手段を提供するが、より洗練された融合手法が視覚的接地性およびクロスモーダル整合性をさらに高める可能性があると考えられる。本研究の主な目的は、モダリティの不均衡が幻覚に与える影響を明らかにし、視覚情報を用いてテキスト埋め込みを精緻化することでこの問題が緩和されることを示すことにあり、高度な融合戦略の検討は今後の課題として残す。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

3ヶ月前

マルチモーダル

マルチモーダル表現

アプローチ／フレームワーク

マルチモーダル

Aakriti Agrawal Gouthaman KV Rohith Aralikatti Gauri Jagatap Jiaxin Yuan Vijay Kamarshi Andrea Fanelli Furong Huang

概要

本研究では、現在広く用いられているLVLMアーキテクチャに言語モダリティへの固有のバイアスが存在することを指摘する。この原因の大部分は、視覚的埋め込みを入力テキスト系列の末尾に単純に連結するという一般的な手法に起因している。これを解決するために、平均プーリングによる視覚特徴をテキスト埋め込みに統合するシンプルでありながら効果的な手法を提案する。本手法は、既存のベンチマークにおいて視覚的接地性能を顕著に向上させるとともに、幻覚の発生を大幅に低減することを実証した。平均プーリングは、視覚情報の統合に際して直感的で堅牢かつ効率的な手段を提供するが、より洗練された融合手法が視覚的接地性およびクロスモーダル整合性をさらに高める可能性があると考えられる。本研究の主な目的は、モダリティの不均衡が幻覚に与える影響を明らかにし、視覚情報を用いてテキスト埋め込みを精緻化することでこの問題が緩和されることを示すことにあり、高度な融合戦略の検討は今後の課題として残す。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています