6ヶ月前

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Fang Peng Xiaoshan Yang Linhui Xiao Yaowei Wang Changsheng Xu

概要

少サンプル学習においては顕著な進展が見られつつあるが、現存する多数の少サンプル画像分類手法は、ベースクラスの大量サンプルを用いた教師あり事前学習を必要としており、実世界における応用において一般化能力に制限が生じている。近年、大規模な視覚言語事前学習モデル（VLPs）は、Web上で容易に入手可能なテキストを活用して、転移可能な視覚表現学習の新たなアプローチを提供できる点から、少サンプル学習において注目を集めている。しかし、VLPsは、言語表現では難しく、画像間の微細な違いを識別する上で重要である詳細な視覚情報を無視する傾向がある。この問題に対処するため、本研究では、暗黙的な知識蒸留、視覚特化型の対照学習損失、およびマルチモーダル対照学習損失を統合的に活用することで、視覚言語事前学習モデルを効果的に拡張し、判別力の高い適応視覚特徴を生成する新しいフレームワーク、Semantik-guided Visual Adapting（SgVA）を提案する。暗黙的な知識蒸留は、微細なマルチモーダル知識を視覚アダプタの更新を導くために設計されている。13のデータセットにおける最先端の実験結果から、適応視覚特徴がマルチモーダル特徴と良好に補完し、少サンプル画像分類性能を向上させることを示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Fang Peng Xiaoshan Yang Linhui Xiao Yaowei Wang Changsheng Xu

概要

少サンプル学習においては顕著な進展が見られつつあるが、現存する多数の少サンプル画像分類手法は、ベースクラスの大量サンプルを用いた教師あり事前学習を必要としており、実世界における応用において一般化能力に制限が生じている。近年、大規模な視覚言語事前学習モデル（VLPs）は、Web上で容易に入手可能なテキストを活用して、転移可能な視覚表現学習の新たなアプローチを提供できる点から、少サンプル学習において注目を集めている。しかし、VLPsは、言語表現では難しく、画像間の微細な違いを識別する上で重要である詳細な視覚情報を無視する傾向がある。この問題に対処するため、本研究では、暗黙的な知識蒸留、視覚特化型の対照学習損失、およびマルチモーダル対照学習損失を統合的に活用することで、視覚言語事前学習モデルを効果的に拡張し、判別力の高い適応視覚特徴を生成する新しいフレームワーク、Semantik-guided Visual Adapting（SgVA）を提案する。暗黙的な知識蒸留は、微細なマルチモーダル知識を視覚アダプタの更新を導くために設計されている。13のデータセットにおける最先端の実験結果から、適応視覚特徴がマルチモーダル特徴と良好に補完し、少サンプル画像分類性能を向上させることを示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

SgVA-CLIP：少数ショット画像分類のための意味誘導型視覚適応による視覚言語モデル | 記事 | HyperAI超神経