11日前

自己監視型トランスフォーマーを用いた非教師付きインスタンスセグメンテーションにおけるK-means

{Lee HongChul, Lee MinYoung, Park JaeEon, Lim SeongTaek}
要約

インスタンスセグメンテーションは、コンピュータビジョンにおける基本的なタスクであり、各ピクセルを適切なクラスに割り当てるとともに、物体をバウンディングボックスで局所化する。しかし、ピクセルレベルのセグメンテーションラベルを収集するには、分類や検出のラベルを収集するよりも、リソースと時間のコストが大きくなる。本研究では、自己教師付き変換器(self-supervised transformer)を用いた反復的マスク精製(Iterative Mask Refinement using a Self-supervised Transformer, IMST)という新たなアプローチを提案する。IMSTは、単純なK-meansクラスタリングと自己教師付きビジョン変換器を用いて、クラスに依存しない非教師ありインスタンスセグメンテーションを実現する。この手法は、オフ・ザ・シェル(off-the-shelf)のインスタンスセグメンテーションモデルの学習に利用可能な擬似真値ラベル(pseudo-ground-truth labels)を生成する。これらの擬似ラベルは、複数のデータセットにおいて性能の向上を示す。擬似ラベルで学習されたインスタンスセグメンテーションモデルは、訓練損失関数やネットワークアーキテクチャを変更することなく、COCO20k(平均精度AP:+4.0)およびCOCO val2017(AP:+2.6)において、既存の最先端の非教師ありインスタンスセグメンテーション手法を上回る性能を達成した。さらに、本手法が単一/複数オブジェクト発見や教師あり微調整(supervised fine-tuning)によるインスタンスセグメンテーションなど、他のタスクへも拡張可能であることを示し、従来手法を上回る成果を報告している。

自己監視型トランスフォーマーを用いた非教師付きインスタンスセグメンテーションにおけるK-means | 最新論文 | HyperAI超神経