
要約
本稿では、密な予測タスク向けのシンプルな教師なし学習フレームワーク「Dense Siamese Network(DenseSiam)」を提案する。DenseSiamは、同一画像の二つの視覚的ビュー間の類似性を最大化することにより、視覚的表現を学習する。この際、ピクセルレベルの整合性と領域レベルの整合性という二種類の整合性を用いる。具体的には、DenseSiamは重複領域におけるピクセルの正確な位置対応に基づき、ピクセル単位の空間的整合性を最大化する。さらに、重複領域内の複数の部分領域に対応する領域埋め込み(region embeddings)をバッチで抽出し、領域整合性のための対比学習を実施する。従来の手法が負例ピクセルペアやモーメンタムエンコーダ、ヒューリスティックマスクを必要とするのに対し、DenseSiamは単純なシアメスネットワークに依拠し、異なる粒度の整合性を効果的に最適化できる。また、単純な位置対応と相互作用を介した領域埋め込みが、類似性を学習する上で十分に有効であることを実証している。本手法はImageNet上で評価され、様々な下流タスクにおいて競争力ある性能向上を達成した。さらに、わずかなタスク固有の損失関数を追加するだけで、このシンプルなフレームワークが直接的に密な予測タスクを実行可能であることも示した。既存の教師なしセマンティックセグメンテーションベンチマークにおいて、28%の学習コスト削減で、最新のセグメンテーション手法を2.1 mIoUの差で上回った。コードとモデルは、https://github.com/ZwwWayne/DenseSiam にて公開されている。