ポイントを橋渡しする:意味的に少量サンプルで何かをセグメンテーションするグラフベースのアプローチ

最近の大規模事前学習技術の進展により、視覚基盤モデルの性能は著しく向上しており、特に点およびボックスプロンプトに基づいて高精度なマスクを生成できるSegment Anything Model(SAM)が注目されている。近年の研究では、SAMをFew-shot Semantic Segmentation(FSS)に拡張する試みがなされており、SAMを基盤とする自動セマンティックセグメンテーションにおけるプロンプト生成に焦点が当たっている。しかし、これらの手法は適切なプロンプトの選定が困難であり、状況に応じて特定のハイパーパラメータの設定が必要となる一方で、SAMの過剰利用によりワンショット推論時間が長くなり、効率性が低く、自動化能力も限られているという課題を抱えている。この問題を解決するために、本研究ではグラフ解析に基づくシンプルかつ効果的なアプローチを提案する。具体的には、マスク生成に用いる点プロンプトを動的に選択する「Positive-Negative Alignmentモジュール」を導入し、特に背景コンテキストを負例参照として活用する潜在的な価値を明らかにした。さらに、次の「Point-Mask Clusteringモジュール」では、マスクが点をカバーする範囲に基づいて、マスクと選択された点の粒度を有向グラフ上で整合させる。その後、この有向グラフの弱連結成分を効率的に分解することで、点を集約し、自然なクラスタを構築する。最終的に、グラフに基づく粒度整合の恩恵を受けて、正例と過剰なマスクを制御するゲート機構により、信頼度の高いマスクを集約し、誤検出マスクをフィルタリングすることで、最終予測を実現する。これにより、追加のハイパーパラメータの使用を削減し、冗長なマスク生成も抑制できる。標準的なFSS、ワンショットパーツセグメンテーション、クロスドメインFSSの複数のデータセットにおいて、広範な実験評価を行った結果、提案手法の有効性と効率性が実証された。特に、COCO-20iではmIoU 58.7%、LVIS-92iでは35.2%という結果を達成し、既存の最先端の汎用モデルを上回った。コードは以下のURLで公開されている:https://andyzaq.github.io/GF-SAM/