8ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Zixian Guo Bowen Dong Zhilong Ji Jinfeng Bai Yiwen Guo Wangmeng Zuo

概要

プロンプトチューニングは、大規模な視覚言語事前学習モデル（例：CLIP）をデータ制約やラベル制約のある設定で様々な下流タスクに適応させる効率的な方法として利用されています。しかし、既存の手法では、プロンプトの学習には視覚データ（例：画像）が必須となっています。本研究では、画像とテキストの二つのモダリティを対応させる画像-テキスト対比学習の有効性（CLIPの訓練において）が、テキストを画像として扱ってプロンプトチューニングを行うことの実現可能性を高めることを主張し、TaI プロンプティングを導入します。視覚データとは異なり、テキスト記述は収集が容易であり、クラスラベルも直接導出できます。特に、我々は野生の文章を使用して多ラベル画像認識における画像の代替としてプロンプトチューニングを行うことを提案しています。さらに、TaI を用いて粗粒度と細粒度の両方の埋め込みを抽出するための二重粒度プロンプトチューニング（TaI-DPT）を提示します。これにより多ラベル認識性能が向上します。実験結果は、提案した TaI-DPT が複数のベンチマーク（MS-COCO, VOC2007, NUS-WIDE など）でゼロショット CLIP を大幅に上回り、また既存の画像からのプロンプティング手法と組み合わせることで認識性能をさらに向上させられることを示しています。コードは https://github.com/guozix/TaI-DPT で公開されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Zixian Guo Bowen Dong Zhilong Ji Jinfeng Bai Yiwen Guo Wangmeng Zuo

概要

プロンプトチューニングは、大規模な視覚言語事前学習モデル（例：CLIP）をデータ制約やラベル制約のある設定で様々な下流タスクに適応させる効率的な方法として利用されています。しかし、既存の手法では、プロンプトの学習には視覚データ（例：画像）が必須となっています。本研究では、画像とテキストの二つのモダリティを対応させる画像-テキスト対比学習の有効性（CLIPの訓練において）が、テキストを画像として扱ってプロンプトチューニングを行うことの実現可能性を高めることを主張し、TaI プロンプティングを導入します。視覚データとは異なり、テキスト記述は収集が容易であり、クラスラベルも直接導出できます。特に、我々は野生の文章を使用して多ラベル画像認識における画像の代替としてプロンプトチューニングを行うことを提案しています。さらに、TaI を用いて粗粒度と細粒度の両方の埋め込みを抽出するための二重粒度プロンプトチューニング（TaI-DPT）を提示します。これにより多ラベル認識性能が向上します。実験結果は、提案した TaI-DPT が複数のベンチマーク（MS-COCO, VOC2007, NUS-WIDE など）でゼロショット CLIP を大幅に上回り、また既存の画像からのプロンプティング手法と組み合わせることで認識性能をさらに向上させられることを示しています。コードは https://github.com/guozix/TaI-DPT で公開されています。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

プロンプトチューニングにおけるマルチラベル画像認識のためのテキストの画像化 | 記事 | HyperAI超神経