要約
本論文では、SAM(Segment Anything Model)セグメンテーション手法を用いて既存のセグメンテーション手法の性能を向上させる可能性について検討する。SAMは、プロンプト入力に対応するセグメンテーションシステムであり、未観測のオブジェクトや画像に対してもゼロショット一般化が可能であり、追加の学習プロセスを必要としない。GitHub上でオープンソースとして公開されているSAMは、容易なアクセスと実装を可能にしている。実験では、DeepLabv3+によって生成されたマスクから抽出したチェックポイントをSAMに供給し、両モデルが出力するセグメンテーションマスクを統合することで、セグメンテーション性能の向上を目指した。さらに、マスクの推定をGround Truthから抽出したチェックポイントを用いてSAMのみで行う「オラクル法」(上限性能のベースライン)も検証した。また、CAMOデータセットにおいて、PVTv2トランスフォーマーのアンサンブルとSAMを組み合わせた手法を検証した結果、当該データセットにおいて最先端の性能を達成した。本研究の結果は、既存のセグメンテーション技術にSAMを統合する際の潜在的効果について、貴重な知見を提供する。本論文と併せて、本手法のオープンソース実装も公開する。