8ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Ximeng Sun; Ping Hu; Kate Saenko

概要

低ラベル環境下での多ラベル認識（MLR）は、多くの実世界の応用を持つ難問である。最近の研究では、不足している画像ラベルを補うためにテキスト空間と視覚空間の間のアライメントを学習しているが、利用可能なMLR注釈が限られているため精度が低下する。本研究では、数百万の補助的な画像-テキストペアで事前学習されたテキストと視覚特徴量の強いアライメントを利用し、部分ラベルMLRとゼロショットMLRを統一的に扱うフレームワークとしてデュアルコンテクスト最適化（DualCoOp）を提案する。DualCoOpは、クラス名を言語入力（すなわちプロンプト）の一部として正負のコンテクストを符号化する。DualCoOpは事前学習済みのビジョン-言語フレームワークに非常に軽い学習オーバーヘッドのみを導入するため、注釈が限られている多ラベル認識タスクや未見クラスに対して迅速に適応できる。標準的な多ラベル認識ベンチマークにおける2つの挑戦的な低ラベル設定での実験結果は、当手法が最先端の方法よりも優れていることを示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Ximeng Sun; Ping Hu; Kate Saenko

概要

低ラベル環境下での多ラベル認識（MLR）は、多くの実世界の応用を持つ難問である。最近の研究では、不足している画像ラベルを補うためにテキスト空間と視覚空間の間のアライメントを学習しているが、利用可能なMLR注釈が限られているため精度が低下する。本研究では、数百万の補助的な画像-テキストペアで事前学習されたテキストと視覚特徴量の強いアライメントを利用し、部分ラベルMLRとゼロショットMLRを統一的に扱うフレームワークとしてデュアルコンテクスト最適化（DualCoOp）を提案する。DualCoOpは、クラス名を言語入力（すなわちプロンプト）の一部として正負のコンテクストを符号化する。DualCoOpは事前学習済みのビジョン-言語フレームワークに非常に軽い学習オーバーヘッドのみを導入するため、注釈が限られている多ラベル認識タスクや未見クラスに対して迅速に適応できる。標準的な多ラベル認識ベンチマークにおける2つの挑戦的な低ラベル設定での実験結果は、当手法が最先端の方法よりも優れていることを示している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています