11日前

FocalClick:実用的なインタラクティブ画像セグメンテーションへの道

Xi Chen, Zhiyan Zhao, Yilei Zhang, Manni Duan, Donglian Qi, Hengshuang Zhao
FocalClick:実用的なインタラクティブ画像セグメンテーションへの道
要約

インタラクティブセグメンテーションは、ポジティブ/ネガティブなクリック操作により、ユーザーが対象マスクを抽出できる手法である。多くの先行研究で検討されてきたが、学術的なアプローチと産業界のニーズの間に依然としてギャップが存在している。第一に、既存のモデルは低消費電力デバイス上で十分に効率的に動作しない。第二に、既存マスクの修正用途においては性能が劣り、正しく識別された領域を破壊してしまう傾向がある。FocalClickは、局所的な領域においてマスクを予測・更新することで、これらの課題を同時に解決する。効率性を高めるために、画像全体に対する遅い予測を、小さな画像クリップ(crop)上で高速に実行可能な2段階の推論に分解する。具体的には、対象領域を含む「ターゲットクリップ」における粗いセグメンテーションと、注目領域を含む「フォーカスクリップ」における局所的な精緻化処理である。既存マスクとの連携を可能にするために、新たなサブタスクとして「インタラクティブマスク補正」を定式化し、その解決策として「プログレッシブマージ(Progressive Merge)」を提案する。プログレッシブマージは、形状論的(モルフォロジー的)な情報を活用して、どの領域を保持し、どの領域を更新すべきかを判断する。これにより、ユーザーは任意の既存マスクを効果的に修正できる。FocalClickは、SOTA(最先端)手法と比較して、顕著に少ないFLOPsで競争力のある結果を達成する。また、既存マスクの修正においては、顕著な優位性を示す。コードとデータは、github.com/XavierCHEN34/ClickSEGにて公開される。

FocalClick:実用的なインタラクティブ画像セグメンテーションへの道 | 最新論文 | HyperAI超神経