HyperAIHyperAI

Command Palette

Search for a command to run...

OTSeg:ゼロショットセマンティックセグメンテーションのためのマルチプロンプトSinkhornアテンション

Kwanyoung Kim Yujin Oh Jong Chul Ye

概要

最近のCLIPの成功は、マルチモーダルな知識を画素レベルの分類に転移させることで、ゼロショットセマンティックセグメンテーションにおいて有望な結果を示している。しかし、既存のアプローチでは、事前学習されたCLIPの知識を活用してテキスト埋め込みと画素埋め込みをより密接に一致させることが依然として課題である。この問題に対処するため、我々は、複数のテキストプロンプトが関連する画素埋め込みと一致する可能性を高める目的で、新たなマルチモーダルアテンション機構OTSegを提案する。まず、最適輸送(Optimal Transport, OT)アルゴリズムに基づき、複数のテキストプロンプトが画像の画素内にあるさまざまなセマンティック特徴に選択的に注目できるようにする「Multi-Prompts Sinkhorn(MPS)」を提案する。さらに、単モーダル設定で成功を収めたSinkformerのアイデアを踏まえ、MPSの拡張として、マルチモーダル設定におけるTransformerフレームワーク内のクロスアテンション機構を効果的に置き換える「Multi-Prompts Sinkhorn Attention(MPSA)」を導入する。広範な実験を通じて、OTSegが3つのベンチマークデータセットにおいてゼロショットセマンティックセグメンテーション(ZS3)タスクで最先端(SOTA)の性能を達成し、顕著な性能向上を示したことを実証した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
OTSeg:ゼロショットセマンティックセグメンテーションのためのマルチプロンプトSinkhornアテンション | 記事 | HyperAI超神経