
要約
インタラクティブ画像セグメンテーションは、ピクセル単位のアノテーションや画像編集において不可欠なツールである。高精度なバイナリセグメンテーションマスクを得るため、ユーザーはオブジェクトの詳細部分(エッジや穴など)の周囲にインタラクションクリックを追加することで、効率的にマスクを修正する傾向にある。現在の手法では、こうした修正クリックを、グローバルな予測を共同で決定するためのガイドとして扱っている。しかし、グローバルな視点はモデルが後続のクリックに注目できなくなるという問題を引き起こし、ユーザーの意図とも乖離している。本研究では、クリックの「視点」に着目し、再びオブジェクトの詳細部分におけるクリックの決定的役割を回復することを目指す。注目すべき視点の必要性を検証するため、我々はシンプルかつ効果的なパイプライン「FocusCut」を設計した。この手法は、オブジェクトセグメンテーションと局所的修正の機能を統合しており、グローバルな予測を取得した後、クリックを中心とする画像領域を適応的なスコープで切り出して、逐次的に局所的な予測を精緻化する。ユーザーの意識やパラメータ数の増加を伴わず、最先端の性能を達成した。広範な実験および可視化結果により、FocusCutがインタラクティブ画像セグメンテーションにおけるハイパーファインなセグメンテーションを可能にしていることが示された。