HyperAIHyperAI

Command Palette

Search for a command to run...

ビジュアルプロンプティングによる汎化少数ショットセグメンテーション:マルチスケールアプローチ

Mir Rayat Imtiaz Hossain Mennatullah Siam Leonid Sigal James J. Little

概要

注意に基づくトランスフォーマー・モデルの登場は、その優れた汎化能力和と転移特性により、様々なタスクでの広範な使用につながっています。最近の研究では、これらのモデルが適切にプロンプトされると、少量学習(few-shot)推論に非常に優れていることが示されています。しかし、セマンティック・セグメンテーションなどの密集予測タスクにおけるこのような手法の探索は十分ではありません。本研究では、学習された視覚的なプロンプトを用いてトランスフォーマー・デコーダーをプロンプトする効果を一般化された少量学習セグメンテーション(Generalized Few-Shot Segmentation: GFSS)タスクで検討します。我々の目標は、例が限られている新規カテゴリだけでなく、ベースカテゴリでも高い性能を維持することです。限られた例を使用して視覚的なプロンプトを学習する方法を提案します。これらの学習された視覚的なプロンプトは、多尺度トランスフォーマー・デコーダーにプロンプトすることで正確な密集予測を促進するために使用されます。さらに、限られた例から学習した新規プロンプトと豊富なデータから学習したベース・プロンプトとの間で単方向因果注目機構(unidirectional causal attention mechanism)を導入します。この機構は、新規クラスの性能向上に寄与しながら、ベースクラスの性能を損なわないように設計されています。全体として、この形式のプロンプティングはCOCON-20i20^i20iおよびPascal-5i5^i5iという2つの異なるベンチマークデータセットにおいてGFSSで最先端の性能を達成し、テスト時の最適化(または伝導)なしで機能します。また、ラベル付けされていないテストデータを使用してテスト時の最適化を行い、プロンプトの改善を行うことができます。これを伝導型プロンプティング調整(transductive prompt tuning)と呼びます。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています