
要約
本稿では、インスタンスセグメンテーションなどのピクセルレベルのグループ化問題を解くための微分可能でエンドツーエンド学習可能なフレームワークを紹介します。このフレームワークは2つの新規部品から構成されています。まず、同じグループに属するピクセルが高コサイン類似度を持ち、異なるグループに属するピクセルが指定されたマージン以下の類似度を持つように、ピクセルをハイパースフィア的な埋め込み空間へ回帰させます。埋め込み次元とマージンの選択について分析し、それらを球面上での点の均一分布に関する理論的結果と関連付けます。次に、インスタンスをグループ化するために、カーネル帯域幅によってパラメータ化された再帰型ニューラルネットワークとして実装された平均シフトクラスタリングの変種を利用します。この再帰型グループ化モジュールは微分可能であり、収束ダイナミクスと確率的解釈性を享受しています。グループ重み付き損失を通じてバックプロパゲーションを行うことで、その後のクラスタリングで解決されない埋め込み誤差のみに焦点を当てた学習が可能となります。当該フレームワークは概念的に単純かつ理論的に豊富であるだけでなく、実際には効果的で計算効率も高いです。物体提案生成における最先端のインスタンスセグメンテーションに対する大幅な改善や、境界検出や意味的セグメンテーションなどの分類タスクにおけるグループ化損失の利点を示すことでこれを証明しています。