HyperAIHyperAI

Command Palette

Search for a command to run...

OrdinalCLIP: 言語ガイド付き順位回帰のためのランクプロンプト学習

Li Wanhua ; Huang Xiaoke ; Zhu Zheng ; Tang Yansong ; Li Xiu ; Zhou Jie ; Lu Jiwen

概要

本論文では、言語を活用した順位回帰のパラダイムを提案します。既存の手法は通常、各ランクをカテゴリとして扱い、一連の重みを使用してこれらの概念を学習します。これらの手法は過学習しやすく、学習された概念が主に訓練データセットから導き出されるため、満足のいく性能を得るのが難しい場合があります。最近の大きな事前学習済み視覚-言語モデル(例:CLIP)は、様々な視覚タスクで優れた性能を示しています。本論文では、豊富な意味的なCLIP潜在空間からランク概念を学習することを提案します。具体的には、このタスクをコントラスティブ目的関数を持つ画像-言語マッチング問題として再定式化し、各ランクに対してテキストエンコーダーから言語プロトタイプを得ることとします。CLIPのプロンプト設計は非常に時間のかかる作業ですが、我々は順位回帰のためにCLIPを適応させる微分可能なプロンプト手法であるOrdinalCLIPを提案します。OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されています;学習可能なランク埋め込みは数値的連続性を明示的にモデリングすることで構築され、CLIP空間内での整然とした且つコンパクトな言語プロトタイプが得られます。一度学習が完了すれば、巨大な言語モデルは破棄し、言語プロトタイプのみを保存することで線形ヘッドと比較して追加の計算負荷なしで運用することが可能となります。実験結果は、一般的な順位回帰タスクにおいて我々のパラダイムが競争力のある性能を達成し、年齢推定における少ショット設定や分布シフト設定での改善も示しています。コードはhttps://github.com/xk-huang/OrdinalCLIP で公開されています。注:「微分可能な」(differentiable)という表現は技術的な用語であり、「微分可能」と訳しました。「コンテキストトークン」(context tokens)や「ランク埋め込み」(rank embeddings)なども専門的な用語として使用しています。また、「少ショット設定」(few-shot setting)や「分布シフト設定」(distribution shift setting)も一般的な機械学習用語として訳しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています