2ヶ月前

OneFormer: すべての画像セグメンテーションを統括する1つのトランスフォーマー

Jitesh Jain; Jiachen Li; MangTik Chiu; Ali Hassani; Nikita Orlov; Humphrey Shi
OneFormer: すべての画像セグメンテーションを統括する1つのトランスフォーマー
要約

ユニバーサル画像セグメンテーションは新しい概念ではありません。過去数十年間に、シーン解析、パノプティックセグメンテーション、そして最近では新しいパノプティックアーキテクチャなど、画像セグメンテーションの統一を試みる取り組みが行われてきました。しかし、これらのパノプティックアーキテクチャは真に画像セグメンテーションを統一しているわけではなく、最適な性能を得るためにはそれぞれのタスク(セマンティックセグメンテーション、インスタンスセグメンテーション、またはパノプティックセグメンテーション)に対して個別に訓練する必要があります。理想的には、真に普遍的なフレームワークは一度だけ訓練され、すべての3つの画像セグメンテーションタスクで最先端の性能を達成すべきです。この目標に向けて、私たちはOneFormerという普遍的な画像セグメンテーションフレームワークを提案します。OneFormerはマルチタスク・トレーニング・ワンス設計によってセグメンテーションを統合します。まず、各ドメイン(セマンティックセグメンテーション、インスタンスセグメンテーション、およびパノプティックセグメンテーション)のGround Truthを使用して単一のマルチタスク訓練プロセス内で訓練できるようにするためのタスク条件付き共同訓練戦略を提案します。次に、現在のタスクに対応するタスキトークンを導入し、モデルがマルチタスク訓練と推論をサポートするように動的に変化させる仕組みを作ります。さらに、訓練中にクエリ-テキスト対照損失を使用することにより、より良いタスク間およびクラス間の区別を確立する方法も提案します。特に注目に値するのは、私たちの単一のOneFormerモデルがADE20k, CityScapes, およびCOCOにおいて3つの分割タスク全てで専門的なMask2Formerモデルよりも優れた性能を示していることです。後者は各タスクに対して個別に訓練され、3倍のリソースが投入されています。新しいConvNeXtとDiNATバックボーンを使用することで、さらなる性能向上が観察されました。私たちはOneFormerが画像セグメンテーションをより普遍的かつ利用可能にする重要なステップであると考えています。さらなる研究を支援するために、コードとモデルをオープンソース化し、https://github.com/SHI-Labs/OneFormer で公開しています。

OneFormer: すべての画像セグメンテーションを統括する1つのトランスフォーマー | 最新論文 | HyperAI超神経