11日前

OTSeg:ゼロショットセマンティックセグメンテーションのためのマルチプロンプトSinkhornアテンション

Kwanyoung Kim, Yujin Oh, Jong Chul Ye
OTSeg:ゼロショットセマンティックセグメンテーションのためのマルチプロンプトSinkhornアテンション
要約

最近のCLIPの成功は、マルチモーダルな知識を画素レベルの分類に転移させることで、ゼロショットセマンティックセグメンテーションにおいて有望な結果を示している。しかし、既存のアプローチでは、事前学習されたCLIPの知識を活用してテキスト埋め込みと画素埋め込みをより密接に一致させることが依然として課題である。この問題に対処するため、我々は、複数のテキストプロンプトが関連する画素埋め込みと一致する可能性を高める目的で、新たなマルチモーダルアテンション機構OTSegを提案する。まず、最適輸送(Optimal Transport, OT)アルゴリズムに基づき、複数のテキストプロンプトが画像の画素内にあるさまざまなセマンティック特徴に選択的に注目できるようにする「Multi-Prompts Sinkhorn(MPS)」を提案する。さらに、単モーダル設定で成功を収めたSinkformerのアイデアを踏まえ、MPSの拡張として、マルチモーダル設定におけるTransformerフレームワーク内のクロスアテンション機構を効果的に置き換える「Multi-Prompts Sinkhorn Attention(MPSA)」を導入する。広範な実験を通じて、OTSegが3つのベンチマークデータセットにおいてゼロショットセマンティックセグメンテーション(ZS3)タスクで最先端(SOTA)の性能を達成し、顕著な性能向上を示したことを実証した。

OTSeg:ゼロショットセマンティックセグメンテーションのためのマルチプロンプトSinkhornアテンション | 最新論文 | HyperAI超神経