PiCIE:クラスタリングにおける不変性と等変性を用いた教師なし意味セグメンテーション

我々は、クラスタリングを用いたラベルなしセマンティックセグメンテーションのための新しいフレームワークを提案する。既存のクラスタリング手法は、整理された単一ラベル・オブジェクト中心の画像に限定されるが、現実世界のデータは主に整理されておらず、マルチラベルかつシーン中心的である。本研究では、クラスタリングを画像レベルから画素レベルへ拡張し、各画像内における異なるインスタンスに対して個別にクラスタメンバーシップを割り当てる。しかし、画素単位の特徴類似性にのみ依存すると、高レベルの意味的コンセプトを学習できず、低レベルの視覚的特徴に過剰適合(オーバーフィット)してしまう。そこで、光度および幾何変化に対する不変性(invariance)と等価性(equivariance)を学習するための誘導的バイアス(inductive bias)として幾何的一貫性を組み込む手法を提案する。本研究で提唱する新たな学習目的により、高レベルの意味的コンセプトを効果的に学習可能となる。本手法は、PiCIE(Pixel-level feature Clustering using Invariance and Equivariance)と命名され、ハイパーパラメータのチューニングやタスク固有の前処理を一切行わずに、物(things)と素材(stuff)の両カテゴリをセグメンテーションできる初めての手法である。COCOおよびCityscapesデータセットにおいて、既存のベースラインを大幅に上回り、Accで+17.5、mIoUで+4.5の向上を達成した。また、標準的な教師あり学習の初期化としてPiCIEが優れた性能を発揮することも示した。コードは以下のURLから公開されている:https://github.com/janghyuncho/PiCIE。