6ヶ月前

概要

クリックベースのインタラクティブ画像セグメンテーションは、限られたユーザーのクリック操作で対象物を抽出することを目的としている。現在の手法では、階層的なバックボーン構造が標準的なアーキテクチャとなっている。一方、近年では単純な非階層型ビジョン変換器（Vision Transformer, ViT）が、密度予測タスクにおける競争力のあるバックボーンとして注目されている。この設計により、元のViTは階層構造を再設計せずに事前学習用のバックボーンとして用いられる基礎モデル（foundation model）として利用可能になる。このアプローチはシンプルであり、既に有効性が実証されているが、インタラクティブ画像セグメンテーション分野ではまだ検討されていない。このギャップを埋めるために、本研究では、単純なバックボーンを活用する初めてのインタラクティブセグメンテーション手法「SimpleClick」を提案する。単純なバックボーンを基盤とし、バックボーン自体の変更を最小限に抑えた対称的なパッチ埋め込み層を導入することで、クリック情報を効果的にバックボーンに統合する。また、事前学習にマスク付き自己符号化器（Masked Autoencoder, MAE）を用いた単純なバックボーンを採用することで、SBDデータセットにおいて4.15 NoC@90という最先端の性能を達成し、従来の最良結果から21.8%の向上を実現した。さらに、医療画像を用いた広範な評価により、本手法の汎用性を実証した。また、SimpleClick向けに極めて小型のViTバックボーンを新たに開発し、詳細な計算量分析を実施することで、実用的なアノテーションツールとしての適性を明確に示した。

ソースPDF