
要約
本研究では、入力データの異なる構成ビュー間の相互情報量を最大化する手法に基づく、新たな非教師あり画像セグメンテーションアプローチを提案する。ラスタスキャン順序でマスク付き畳み込み(masked convolutions)によって生成された過去のピクセルから現在のピクセルを予測する自己回帰的生成モデルに着想を得て、異なるマスク付き畳み込みの形式を用いて入力データに対して複数の順序を導入し、それらをもとに異なるビューを構成する手法を提案する。与えられた入力に対して、モデルは2つの有効な順序に基づく予測ペアを生成し、その2つの出力間の相互情報量を最大化するように学習する。これらの出力は、表現学習のための低次元特徴量として用いることもでき、あるいは意味的ラベルに対応するクラスタとしての出力としてクラスタリングに利用することも可能である。学習段階ではマスク付き畳み込みを用いるが、推論時にはマスクを適用せず、標準的な畳み込みに切り替える。この場合、モデルは入力全体にアクセスできる。提案手法は、非教師あり画像セグメンテーションにおいて、現在の最先端技術を上回る性能を達成している。本手法は構成が単純で実装が容易であり、他の視覚タスクへの拡張も可能であり、異なるビューを必要とする既存の非教師あり学習手法とのシームレスな統合も可能である。