10日前
LMPT:クラス固有埋め込み損失を用いた長尾マルチラベル視覚認識におけるプロンプトチューニング
Peng Xia, Di Xu, Ming Hu, Lie Ju, Zongyuan Ge

要約
長尾多ラベル視覚認識(LTML)タスクは、ラベルの同時出現(co-occurrence)およびデータ分布の極端な不均衡性という課題から、非常に困難なタスクである。本研究では、このような課題に対応する統一的なフレームワークとして、クラス固有の埋め込み損失を用いたプロンプトチューニング(LMPT)を提案する。LMPTは、テキストモダリティと画像モダリティのデータを統合することで、カテゴリ間の意味的特徴相互作用を捉え、ヘッドクラスとテールクラスの両方において性能を同時に向上させる。具体的には、LMPTは、クラスに依存するソフトマージンと再重み付けを導入した埋め込み損失関数を採用し、テキスト的記述(キャプション)の恩恵を活かしてクラス固有の文脈を学習する。これにより、特にヘッドクラスとテールクラスの間における意味的関係の構築が促進される。さらに、クラスの不均衡問題を考慮し、分布バランス損失を分類損失関数として採用することで、テールクラスの性能を向上させつつ、ヘッドクラスの性能を損なわないようにしている。VOC-LTおよびCOCO-LTデータセットにおける広範な実験の結果、本手法は従来の最先端手法およびゼロショットのCLIPを大きく上回ることが示された。本研究のコードは、GitHubにて完全に公開されており、https://github.com/richard-peng-xia/LMPT から入手可能である。