2ヶ月前

視覚質問応答

ベンチマーク

AIインフラストラクチャ

マルチモーダル

Tao Zhang Yuyang Hong Yang Xia Kun Ding Zeyu Zhang Ying Wang Shiming Xiang Chunhong Pan

概要

近年、マルチモーダル大規模言語モデル（MLLM）の進展により、さまざまなベンチマークにおいて顕著な進歩が達成されている。しかし、赤外線画像の理解能力については、依然として検討が不足している。このギャップを埋めるために、本研究では赤外線画像のマルチモーダル理解を評価するための高品質なベンチマーク「IF-Bench」を初めて提案する。IF-Benchは、23の赤外線データセットから収集された499枚の画像と、10の重要な画像理解次元をカバーする680の丁寧に選定された視覚的質問・回答ペアから構成されている。このベンチマークを基盤として、循環評価、二言語評価、ハイブリッド判断戦略を用いて、40以上のオープンソースおよびクローズドソースMLLMを体系的に評価した。分析の結果、モデルの規模、アーキテクチャ、推論パラダイムが赤外線画像理解に与える影響が明らかとなり、本分野における貴重な知見が得られた。さらに、訓練を必要としない生成型視覚プロンプティング（GenViP）手法を提案する。この手法は、高度な画像編集モデルを活用して赤外線画像を意味的・空間的に整合したRGB画像に変換することで、ドメイン分布のずれを緩和する。広範な実験により、本手法が多数のMLLMにおいて一貫して顕著な性能向上をもたらすことが実証された。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

2ヶ月前

視覚質問応答

ベンチマーク

AIインフラストラクチャ

マルチモーダル

Tao Zhang Yuyang Hong Yang Xia Kun Ding Zeyu Zhang Ying Wang Shiming Xiang Chunhong Pan

概要

近年、マルチモーダル大規模言語モデル（MLLM）の進展により、さまざまなベンチマークにおいて顕著な進歩が達成されている。しかし、赤外線画像の理解能力については、依然として検討が不足している。このギャップを埋めるために、本研究では赤外線画像のマルチモーダル理解を評価するための高品質なベンチマーク「IF-Bench」を初めて提案する。IF-Benchは、23の赤外線データセットから収集された499枚の画像と、10の重要な画像理解次元をカバーする680の丁寧に選定された視覚的質問・回答ペアから構成されている。このベンチマークを基盤として、循環評価、二言語評価、ハイブリッド判断戦略を用いて、40以上のオープンソースおよびクローズドソースMLLMを体系的に評価した。分析の結果、モデルの規模、アーキテクチャ、推論パラダイムが赤外線画像理解に与える影響が明らかとなり、本分野における貴重な知見が得られた。さらに、訓練を必要としない生成型視覚プロンプティング（GenViP）手法を提案する。この手法は、高度な画像編集モデルを活用して赤外線画像を意味的・空間的に整合したRGB画像に変換することで、ドメイン分布のずれを緩和する。広範な実験により、本手法が多数のMLLMにおいて一貫して顕著な性能向上をもたらすことが実証された。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

IF-Bench：生成視覚を用いた赤外線画像におけるMLLMのベンチマーク評価と性能向上 | 記事 | HyperAI超神経