8ヶ月前

概要

注意に基づくトランスフォーマー・モデルの登場は、その優れた汎化能力和と転移特性により、様々なタスクでの広範な使用につながっています。最近の研究では、これらのモデルが適切にプロンプトされると、少量学習（few-shot）推論に非常に優れていることが示されています。しかし、セマンティック・セグメンテーションなどの密集予測タスクにおけるこのような手法の探索は十分ではありません。本研究では、学習された視覚的なプロンプトを用いてトランスフォーマー・デコーダーをプロンプトする効果を一般化された少量学習セグメンテーション（Generalized Few-Shot Segmentation: GFSS）タスクで検討します。我々の目標は、例が限られている新規カテゴリだけでなく、ベースカテゴリでも高い性能を維持することです。限られた例を使用して視覚的なプロンプトを学習する方法を提案します。これらの学習された視覚的なプロンプトは、多尺度トランスフォーマー・デコーダーにプロンプトすることで正確な密集予測を促進するために使用されます。さらに、限られた例から学習した新規プロンプトと豊富なデータから学習したベース・プロンプトとの間で単方向因果注目機構（unidirectional causal attention mechanism）を導入します。この機構は、新規クラスの性能向上に寄与しながら、ベースクラスの性能を損なわないように設計されています。全体として、この形式のプロンプティングはCOCON- $20^i$ およびPascal- $5^i$ という2つの異なるベンチマークデータセットにおいてGFSSで最先端の性能を達成し、テスト時の最適化（または伝導）なしで機能します。また、ラベル付けされていないテストデータを使用してテスト時の最適化を行い、プロンプトの改善を行うことができます。これを伝導型プロンプティング調整（transductive prompt tuning）と呼びます。