CFR-ICL:インタラクティブ画像セグメンテーションのためのキャスケードフォワードリファインメントと反復クリック損失

クリックベースのインタラクティブセグメンテーションは、ユーザーのクリックをガイドとして画像から関心対象のオブジェクトを抽出することを目的としています。近年の研究では、出力からのフィードバックを活用することで、全体的な性能が著しく向上しています。しかし、多数の最先端手法において、1)推論段階で柔軟性に欠けるヒューリスティックなルールが用いられ、別途精緻化モデルが必要となる点、および2)ユーザーのクリック数とモデル性能のバランスを取るのが困難である点が課題となっています。本研究では、これらの課題を解決するため、クリックベースかつマスクガイド付きのインタラクティブ画像セグメンテーションフレームワークを提案し、以下の3つの新規な構成要素を含みます:カスケードフォワード精緻化(Cascade-Forward Refinement, CFR)、イテレーティブクリック損失(Iterative Click Loss, ICL)、およびSUEM画像増強。CFRは、粗い段階から細かい段階へと段階的にセグメンテーション結果を生成する統一的な推論フレームワークを提供します。提案するICLは、モデル学習段階でセグメンテーション精度の向上とユーザー操作回数の削減を同時に実現可能にします。また、提案するSUEM増強法は、インタラクティブ画像セグメンテーション向けの大規模かつ多様な訓練データセットを包括的に生成する手法です。広範な実験により、提案手法が5つの公開データセットにおいて最先端の性能を達成することが確認されました。特に、BerkeleyおよびDAVISデータセットにおいて、従来の最先端手法がIoU 0.95を達成するために必要とするクリック数を、それぞれ33.2%および15.5%削減することができました。