自己教師あり意味分割によるオブジェクトマスク提案の対比

教師なしで画像の濃密な意味表現(dense semantic representations)を学習できる能力は、コンピュータビジョン分野において重要な課題である。しかし、その重要性にもかかわらず、この問題は依然としてあまり研究が進んでおらず、小規模なデータセットおよび限定的な視覚ドメイン上で教師なしの意味的セグメンテーションを扱った少数の例外を除いて、ほとんど未開拓の領域にとどまっている。本論文では、従来の教師あり学習に用いられてきたデータセット上で、この課題に初めて挑戦する。これを実現するため、対照的最適化(contrastive optimization)の目的関数に事前に定義された中間レベルの事前知識(mid-level prior)を導入する二段階フレームワークを提案する。これは、代理タスク(proxy tasks)やエンドツーエンドクラスタリングに依存する従来のアプローチとは大きく異なるアプローチである。さらに、物体またはその部位に関する情報を含む事前知識の重要性について論じ、そのような事前知識を教師なしで得るためのいくつかの可能性についても検討する。実験的評価の結果、本手法は既存の手法に比べて顕著な利点を有することが示された。第一に、PASCALデータセット上でK-Meansを直接適用することで、学習されたピクセル埋め込み(pixel embeddings)を意味的グループにクラスタリングできる。完全に教師なしの設定で、このような挑戦的なベンチマーク上で意味的セグメンテーションタスクを解く先行研究は本研究が初めてである。第二に、学習された表現は、COCOやDAVISといった新たなデータセットに転移した際に、強力なベースラインを上回る性能を示す。コードは公開されている。