10ヶ月前

視覚質問応答

監視付き微調整

マルチモーダル

Xiyao Wang extsuperscript1,3† Jiucai Chen extsuperscript1 Zhaoyang Wang extsuperscript2 Yuhang Zhou extsuperscript1 Yiyang Zhou extsuperscript2 Huaxiu Yao extsuperscript2 Tianyi Zhou extsuperscript1 Tom Goldstein extsuperscript1 Parminder Bhatia extsuperscript3 Taha Kass-Hout extsuperscript3

概要

大規模視覚言語モデル（LVLMs）は、特定のデータセット上で視覚指示調整を行うことで、視覚的な質問応答や推論タスクにおいて印象的な結果を達成しています。しかし、視覚と言語モダリティの整合性を向上させる余地がまだ大きく存在しています。既存の方法はしばしば外部モデルやデータに依存しており、これにより制御不能で不安定な整合性結果が生じることがあります。本論文では、SIMA（Self-Improvement Modality Alignment）という自己改善フレームワークを提案します。このフレームワークは外部依存なしに視覚と言語モダリティの整合性を向上させます。SIMAは既存の視覚指示調整データセットを利用して自己生成応答を行い、コンテキスト内での自己批評メカニズムを導入して偏好ペアを作成します。特に、当手法は効果的な批評プロンプト設計によってLVLM自体が批評者として機能し、外部指示データを使用した追加の微調整が必要なくなるようにしています。また、自己批評プロセス内で3つの新しい視覚指標を導入し、自己批評の精度を大幅に向上させています。14種類の幻覚および包括的ベンチマークにおける広範な実験を通じて、SIMAがLVLMの性能を大幅に向上させ、従来の手法よりも優れたモダリティ整合性を達成することを示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

10ヶ月前

視覚質問応答

監視付き微調整

マルチモーダル

Xiyao Wang extsuperscript1,3† Jiucai Chen extsuperscript1 Zhaoyang Wang extsuperscript2 Yuhang Zhou extsuperscript1 Yiyang Zhou extsuperscript2 Huaxiu Yao extsuperscript2 Tianyi Zhou extsuperscript1 Tom Goldstein extsuperscript1 Parminder Bhatia extsuperscript3 Taha Kass-Hout extsuperscript3

概要

大規模視覚言語モデル（LVLMs）は、特定のデータセット上で視覚指示調整を行うことで、視覚的な質問応答や推論タスクにおいて印象的な結果を達成しています。しかし、視覚と言語モダリティの整合性を向上させる余地がまだ大きく存在しています。既存の方法はしばしば外部モデルやデータに依存しており、これにより制御不能で不安定な整合性結果が生じることがあります。本論文では、SIMA（Self-Improvement Modality Alignment）という自己改善フレームワークを提案します。このフレームワークは外部依存なしに視覚と言語モダリティの整合性を向上させます。SIMAは既存の視覚指示調整データセットを利用して自己生成応答を行い、コンテキスト内での自己批評メカニズムを導入して偏好ペアを作成します。特に、当手法は効果的な批評プロンプト設計によってLVLM自体が批評者として機能し、外部指示データを使用した追加の微調整が必要なくなるようにしています。また、自己批評プロセス内で3つの新しい視覚指標を導入し、自己批評の精度を大幅に向上させています。14種類の幻覚および包括的ベンチマークにおける広範な実験を通じて、SIMAがLVLMの性能を大幅に向上させ、従来の手法よりも優れたモダリティ整合性を達成することを示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

大規模視覚言語モデルにおける自己改善を通じた視覚-言語モダリティのアライメント強化 | 記事 | HyperAI超神経