2ヶ月前
PolyMaX: マスク変換器を用いた一般的な高密度予測
Xuan Yang; Liangzhe Yuan; Kimberly Wilber; Astuti Sharma; Xiuye Gu; Siyuan Qiao; Stephanie Debats; Huisheng Wang; Hartwig Adam; Mikhail Sirotenko; Liang-Chieh Chen

要約
密集予測タスク、例えばセマンティックセグメンテーション、深度推定、および表面法線推定は、ピクセルごとの分類(離散出力)または回帰(連続出力)として容易に定式化できます。このピクセルごとの予測パラダイムは、完全畳み込みネットワークの普及により長らく人気を保っています。しかし、最近のセグメンテーションタスクの最前線では、トランスフォーマー構造、特にマスクトランスフォーマーの登場により、ピクセルごとの予測からクラスタ予測へのパラダイムシフトが見られています。マスクトランスフォーマーは、ピクセルではなくマスクに対して直接ラベルを予測します。このシフトにもかかわらず、連続出力を必要とする他の密集予測タスク、例えば深度推定や表面法線推定においては、依然としてピクセルごとの予測パラダイムに基づく手法がベンチマークで主流を占めています。DORNとAdaBinsが深度推定で達成した成功に触発され、これらは連続出力空間を離散化することによって実現されました。私たちはクラスタ予測に基づく手法を一般的な密集予測タスクに一般化することを提案します。これにより、マスクトランスフォーマーのフレームワークを使用して密集予測タスクを統一することが可能になります。注目に値する点として、提案されたモデルPolyMaXはNYUD-v2データセットの3つのベンチマークで最先端の性能を示しています。私たちはシンプルでありながら効果的な設計が、マスクトランスフォーマーを活用したさらなる密集予測タスクに関する研究の促進につながることを期待しています。コードとモデルは公開される予定です。