11日前
LOCATE: フロー誘導型グラフカットとブートストラップ自己学習を用いた自己教師付きオブジェクト発見
Silky Singh, Shripad Deshmukh, Mausoom Sarkar, Balaji Krishnamurthy

要約
画像および動画データセットにおける学習用の教師なしオブジェクトセグメンテーションは、困難な課題である。人間は、共通の運命(common fate)のグラスルト原理を用いて、動画内の動きの一致する顕著なオブジェクトを容易に識別することができる。この考えに基づき、我々は動きと外見情報を活用して高品質なオブジェクトセグメンテーションマスクを生成する自己教師付きオブジェクト発見手法を提案する。具体的には、従来の画像におけるグラフカットを再設計し、外見情報と動き情報を線形結合してエッジ重みを生成する。このプロセスにより、複数のベンチマークにおいて、現在の最先端技術と同等、あるいはそれを上回るオブジェクトセグメンテーションマスクが得られる。さらに性能を向上させるために、初期のマスクを擬似教師データ(pseudo-ground truth)として用い、それ自体の出力から学習する自己訓練(self-training)を用いてセグメンテーションネットワークをブートストラップする。本手法「LOCATE」の有効性を、複数の標準的な動画オブジェクトセグメンテーション、画像顕著性検出、オブジェクトセグメンテーションベンチマークにおいて実証し、多数のケースで最先端手法と同等またはそれ以上の性能を達成した。また、野生の画像(in-the-wild images)を用いた定性的な実験を通じて、本手法の新規ドメインへの転移性(transferability)も示した。さらに、本手法の設計選択を裏付ける包括的なアブレーション解析を提示し、各構成要素の寄与を明確にした。