HyperAIHyperAI

Command Palette

Search for a command to run...

歌詞:意味に敏感な視覚的オブジェクトを活用した微細な言語-視覚アライメントおよび理解の向上

Junyu Lu Dixiang Zhang Songxin Zhang Zejian Xie Zhuoyang Song Cong Lin Jiaxing Zhang Bingyi Jing Pingjian Zhang

概要

大規模な視覚言語モデル(LVLMs)は、さまざまな視覚言語対話シナリオにおいて、驚異的なゼロショット能力を示している。しかし、細粒度の視覚的オブジェクト検出が欠如しているため、画像の詳細な理解が困難となり、修復不能な視覚的錯覚や事実誤認が生じる。本論文では、細粒度のクロスモーダル連携から視覚言語の整合性を自己強化する、新たなマルチモーダル事前学習および指示微調整パラダイム「Lyrics」を提案する。BLIP-2を基盤とし、画像タグ付け、オブジェクト検出、意味セグメンテーションモジュールを含む視覚リファイナーから抽出された局所的視覚特徴をクエリトランスフォーマーに統合する。一方、テキスト側では、視覚リファイナーから得られた境界ボックスおよびタグを入力として用いる。さらに、二段階の学習スキームを導入し、事前学習段階では明示的かつ包括的な視覚言語整合性ターゲットによりモダリティギャップを埋める。指示微調整段階では、意味に敏感な視覚特徴抽出法を導入し、モデルが具体的な視覚的オブジェクトから情報量の多い特徴を抽出できるようにする。本手法は、複数の視覚言語タスクにわたる13のデータセットで堅牢な性能を達成し、11のシナリオベースのベンチマークツールキットにおいて、有望なマルチモーダル理解・認識・対話能力を示している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています