2ヶ月前

Mask4Former: 4次元パノプティックセグメンテーションのためのマスクトランスフォーマー

Yilmaz, Kadir ; Schult, Jonas ; Nekrasov, Alexey ; Leibe, Bastian
Mask4Former: 4次元パノプティックセグメンテーションのためのマスクトランスフォーマー
要約

時間経過に伴うインスタンスの正確な認識と追跡は、動的な環境で安全に相互作用する自律エージェントの意思決定プロセスにおいて不可欠です。この目的のために、LiDARポイントクラウドの4次元パノプティックセグメンテーションという難問に対してMask4Formerを提案します。Mask4Formerは、3次元ポイントクラウドの疎で不規則なシーケンスの意味的インスタンスセグメンテーションと追跡を単一の統合モデルにまとめた最初のトランスフォーマーベースのアプローチです。当社のモデルは、確率的クラスタリングや投票に基づく中心予測などの手作りで学習されていない関連戦略に依存せずに、直接意味的インスタンスとその時間的な関連性を予測します。代わりに、Mask4Formerは各シーケンス内の意味的トラックレットの意味的および幾何学的特性を符号化する空間時間的インスタンスクエリを導入します。詳細な研究を通じて、空間的にコンパクトなインスタンス予測を促進することが重要であることがわかりました。なぜなら、空間時間的インスタンスクエリは、空間的に離れていても意味的に類似した複数のインスタンスを結合しがちだからです。このため、6自由度(6-DOF)バウンディングボックスパラメータを空間時間的インスタンスクエリから回帰し、これを補助タスクとして利用して空間的にコンパクトな予測を促進します。Mask4FormerはSemanticKITTIテストセットで68.4 LSTQ(LIDAR Sequence Tracking Quality)という新しい最先端の成績を達成しました。