6ヶ月前

セマンティックセグメンテーション

マルチタスク学習

アプローチ／フレームワーク

コンピュータビジョン

Yang Liu Muzhi Zhu Hengtao Li Hao Chen Xinlong Wang Chunhua Shen

概要

大規模な事前学習に基づく視覚基盤モデルは、オープンワールドにおける画像理解において大きな潜在能力を示している。しかし、自然言語処理において多様な言語タスクを直接処理できる大規模言語モデルとは異なり、視覚基盤モデルは特定のタスクに特化したモデル構造を採用し、その後、具体的なタスク上でファインチューニングを行う必要がある。本研究では、既存の視覚基盤モデルを活用して多様な認知タスクに対応する新しい認知パラダイム「Matcher」を提案する。Matcherは、学習を一切行わずに、文脈内の一例（in-context example）を用いることで、任意のオブジェクトをセグメンテーション可能である。さらに、この基盤モデルと連携してその能力を最大限に引き出すための3つの有効な構成要素をMatcherフレームワーク内に設計した。Matcherは、学習を一切行わずに、多様なセグメンテーションタスクにおいて優れた汎化性能を示している。例えば、COCO-20 $^i$ において1例のみを用いた場合、52.7%のmIoUを達成し、既存の最先端専門モデルを1.6%上回った。また、本研究で提案したLVIS-92 $^i$ におけるワンショットセマンティックセグメンテーションでは、33.0%のmIoUを達成し、最先端の汎用モデルを14.4%上回った。可視化結果から、Matcherが実世界の画像に適用された際のオープンワールドへの汎用性および柔軟性が明確に示された。本研究のコードは、https://github.com/aim-uofa/Matcher で公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

セマンティックセグメンテーション

マルチタスク学習

アプローチ／フレームワーク

コンピュータビジョン

Yang Liu Muzhi Zhu Hengtao Li Hao Chen Xinlong Wang Chunhua Shen

概要

大規模な事前学習に基づく視覚基盤モデルは、オープンワールドにおける画像理解において大きな潜在能力を示している。しかし、自然言語処理において多様な言語タスクを直接処理できる大規模言語モデルとは異なり、視覚基盤モデルは特定のタスクに特化したモデル構造を採用し、その後、具体的なタスク上でファインチューニングを行う必要がある。本研究では、既存の視覚基盤モデルを活用して多様な認知タスクに対応する新しい認知パラダイム「Matcher」を提案する。Matcherは、学習を一切行わずに、文脈内の一例（in-context example）を用いることで、任意のオブジェクトをセグメンテーション可能である。さらに、この基盤モデルと連携してその能力を最大限に引き出すための3つの有効な構成要素をMatcherフレームワーク内に設計した。Matcherは、学習を一切行わずに、多様なセグメンテーションタスクにおいて優れた汎化性能を示している。例えば、COCO-20 $^i$ において1例のみを用いた場合、52.7%のmIoUを達成し、既存の最先端専門モデルを1.6%上回った。また、本研究で提案したLVIS-92 $^i$ におけるワンショットセマンティックセグメンテーションでは、33.0%のmIoUを達成し、最先端の汎用モデルを14.4%上回った。可視化結果から、Matcherが実世界の画像に適用された際のオープンワールドへの汎用性および柔軟性が明確に示された。本研究のコードは、https://github.com/aim-uofa/Matcher で公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Matcher：汎用特徴マッチングを用いたワンショットによるセグメンテーションアプローチ | 記事 | HyperAI超神経