16日前

Matcher:汎用特徴マッチングを用いたワンショットによるセグメンテーションアプローチ

Yang Liu, Muzhi Zhu, Hengtao Li, Hao Chen, Xinlong Wang, Chunhua Shen
Matcher:汎用特徴マッチングを用いたワンショットによるセグメンテーションアプローチ
要約

大規模な事前学習に基づく視覚基盤モデルは、オープンワールドにおける画像理解において大きな潜在能力を示している。しかし、自然言語処理において多様な言語タスクを直接処理できる大規模言語モデルとは異なり、視覚基盤モデルは特定のタスクに特化したモデル構造を採用し、その後、具体的なタスク上でファインチューニングを行う必要がある。本研究では、既存の視覚基盤モデルを活用して多様な認知タスクに対応する新しい認知パラダイム「Matcher」を提案する。Matcherは、学習を一切行わずに、文脈内の一例(in-context example)を用いることで、任意のオブジェクトをセグメンテーション可能である。さらに、この基盤モデルと連携してその能力を最大限に引き出すための3つの有効な構成要素をMatcherフレームワーク内に設計した。Matcherは、学習を一切行わずに、多様なセグメンテーションタスクにおいて優れた汎化性能を示している。例えば、COCO-20$^i$において1例のみを用いた場合、52.7%のmIoUを達成し、既存の最先端専門モデルを1.6%上回った。また、本研究で提案したLVIS-92$^i$におけるワンショットセマンティックセグメンテーションでは、33.0%のmIoUを達成し、最先端の汎用モデルを14.4%上回った。可視化結果から、Matcherが実世界の画像に適用された際のオープンワールドへの汎用性および柔軟性が明確に示された。本研究のコードは、https://github.com/aim-uofa/Matcher で公開されている。

Matcher:汎用特徴マッチングを用いたワンショットによるセグメンテーションアプローチ | 最新論文 | HyperAI超神経