HyperAIHyperAI

Command Palette

Search for a command to run...

SegViTv2: 平坦なビジョントランスフォーマーを用いた効率的かつ継続的なセマンティックセグメンテーションの探求

Bowen Zhang Liyan Liu Minh Hieu Phan Zhi Tian Chunhua Shen Yifan Liu

概要

本論文では、エンコーダー-デコーダーフレームワークを使用してセマンティックセグメンテーションを行うためのシンプルなビジョントランスフォーマー(ViT)の能力を調査し、SegViTv2 を提案します。本研究では、シンプルなViTに効果的な軽量デコーダーを設計するために、新しいアテンション・ツー・マスク(\atm)モジュールを導入しました。提案されたATMは、グローバルアテンションマップを高品質なセグメンテーション結果を得るためのセマンティックマスクに変換します。当社のデコーダーは、さまざまなViTバックボーンを使用する場合でも、人気のあるデコーダーUPerNetを上回りながら、計算コストは約5%しかかかりません。エンコーダーに関しては、ViTベースのエンコーダーにおける比較的高い計算コストという問題に対処し、エッジ認識クエリベースダウンサンプリング(EQD)とクエリベースアップサンプリング(QU)モジュールを取り入れた \emph{Shrunk++} 構造を提案しました。Shrunk++構造は、競争力のある性能を維持しながら、エンコーダーの計算コストを最大50%削減します。さらに、SegViTを継続的なセマンティックセグメンテーションに適応させることで、以前に学習した知識のほぼゼロの忘却を示しています。実験結果から、提案したSegViTv2がADE20K, COCO-Stuff-10K, PASCAL-Contextデータセットを含む3つの主要ベンチマークにおいて最近のセグメンテーション手法を超えることが示されました。コードは以下のリンクから入手可能です: \url{https://github.com/zbwxp/SegVit}


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています