2ヶ月前
Mean Shift Mask Transformer for Unseen Object Instance Segmentation 未知オブジェクトのインスタンスセグメンテーション用のMean Shift Mask Transformer
Yangxiao Lu; Yuqiao Chen; Nicholas Ruozzi; Yu Xiang

要約
未知の物体を画像からセグメンテーションすることは、ロボットが獲得すべき重要な認識スキルである。ロボット操作においては、この技術がロボットに未知の物体を把持し、操作する能力を提供する。平均シフトクラスタリングは、画像セグメンテーションタスクで広く使用されている手法である。しかし、従来の平均シフトクラスタリングアルゴリズムは微分可能ではなく、エンドツーエンドのニューラルネットワーク学習フレームワークに統合することが難しい。本研究では、von Mises-Fisher (vMF) 平均シフトクラスタリングアルゴリズムを模倣する新しいトランスフォーマー構造である Mean Shift Mask Transformer (MSMFormer) を提案する。これにより、特徴抽出器とクラスタリングの両方の共同訓練と推論が可能となる。その中心的な構成要素は超球面注意メカニズムであり、物体クエリを超球面上で更新する。当手法の有効性を示すために、MSMFormer を未知の物体インスタンスセグメンテーションに適用した。実験結果は、MSMFormer が未知の物体インスタンスセグメンテーションにおける最先端手法と競合する性能を達成していることを示している。プロジェクトページ、付録、ビデオおよびコードは https://irvlutd.github.io/MSMFormer で利用可能である。