HyperAIHyperAI

Command Palette

Search for a command to run...

SegCLIP:学習可能な中心を用いたパッチ集約によるオープンボリュームセマンティックセグメンテーション

Huaishao Luo Junwei Bao Youzheng Wu Xiaodong He Tianrui Li

概要

最近、対照的言語-画像事前学習(例:CLIP)は、さまざまな下流タスクにおいて有望な結果を示している。事前学習モデルは、大規模なテキスト-画像データから学習することで、画像に対する豊かな視覚的概念を捉えることができる。しかし、学習された視覚知識をオープンボリュームのセマンティックセグメンテーションに移行する方法はまだ十分に検討されていない。本論文では、アノテーションフリーなアプローチを採用し、オープンボリュームセグメンテーションを対象にしたCLIPベースのモデル「SegCLIP」を提案する。SegCLIPはViT(Vision Transformer)を基盤とし、テキスト-画像ペアの学習を通じて、学習可能な中心を持つパッチをセマンティック領域に集約するという主なアイデアを採用している。この集約操作により、動的にセマンティックグループを捉えることが可能となり、最終的なセグメンテーション結果の生成に活用できる。さらに、マスクされたパッチに対する再構成損失と、仮ラベルを用いたスーパープクセルベースのKL損失を導入することで、視覚表現の強化を図った。実験結果から、PASCAL VOC 2012(+0.3% mIoU)、PASCAL Context(+2.3% mIoU)、COCO(+2.2% mIoU)の各データセットにおいて、既存のベースラインと比較して同等または優れたセグメンテーション精度を達成した。コードは https://github.com/ArrowLuo/SegCLIP にて公開している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています