HyperAIHyperAI

Command Palette

Search for a command to run...

TagCLIP: CLIPのオープンボキャブラリ多ラベル分類を強化するローカルからグローバルへのフレームワーク(学習なし)

Yuqi Lin Minghao Chen Kaipeng Zhang Hengjia Li Mingming Li Zheng Yang Dongqin Lv Binbin Lin Haifeng Liu Deng Cai

概要

コントラスティブ言語画像事前学習(CLIP)は、オープンボキャブラリ分類において優れた能力を示しています。画像エンコーダのクラストークンは、コントラスティブ損失によって異なるテキスト説明を区別するための全体的な特徴を捉えるように訓練されています。これにより、単一ラベル分類に対して非常に効果的です。しかし、多ラベルデータセットでは性能が低下します。これは、全体的な特徴が最も目立つクラスに支配されやすく、ソフトマックス操作のコントラスティブな性質がこれを悪化させるためです。本研究では、多ラベル分類結果が識別的な局所特徴に大きく依存しているにもかかわらず、CLIPでその重要性が見落とされていることを観察しました。そこで、パッチごとの空間情報の保存状況を分析し、局所から全体へ(local-to-global)のフレームワークを提案して画像タグを取得しました。このフレームワークは以下の3つのステップで構成されています:(1) パッチレベルでの分類により粗いスコアを得る;(2) 二重マスキング注意改善(DMAR)モジュールを使用して粗いスコアを精製する;(3) クラスごとの再識別(CWR)モジュールを使用して全体的な視点から予測を補正する。このフレームワークは冷凍されたCLIPのみに基づいており、データセット固有の訓練なしにさまざまなベンチマークでの多ラベル分類性能を大幅に向上させます。さらに、生成されたタグの品質と実用性を包括的に評価するために、それらを下流タスクである弱教師付き意味セマンティックセグメンテーション(WSSS)への応用に拡張し、生成されたタグを使用して画像レベルの疑似ラベルを作成しました。実験結果は、この「分類後にセグメンテーション」のパラダイムが他の教師なしセグメンテーション手法よりも著しく優れており、生成されたタグの有効性を確認しています。私たちのコードは https://github.com/linyq2117/TagCLIP で利用可能です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています