HyperAIHyperAI

Command Palette

Search for a command to run...

Open-Vocabulary Universal Image Segmentation with MaskCLIP オープン・ボキャブラリー普遍的画像セグメンテーションにおけるMaskCLIPの利用

Zheng Ding Jieke Wang Zhuowen Tu

概要

本論文では、新興のコンピュータビジョンタスクであるオープンボキャブラリ普遍画像セグメンテーションに取り組んでいます。このタスクは、推論時に任意のテキストベースの説明に対して、意味/インスタンス/パノプティックセグメンテーション(背景の意味ラベリング + 前景のインスタンスセグメンテーション)を実行することを目指しています。まず、ファインチューニングやディスティレーションを行わずに事前学習済みのCLIPモデルを直接採用して基準方法を構築しました。次に、MaskCLIPというトランスフォーマーに基づくアプローチを開発しました。MaskCLIPにはMaskCLIPビジュアルエンコーダが搭載されており、これはエンコーダのみのモジュールで、事前学習済みのViT CLIPモデルとマスクトークンをシームレスに統合し、意味/インスタンスセグメンテーションとクラス予測を行うことができます。MaskCLIPは、MaskCLIPビジュアルエンコーダ内で効率的かつ効果的に事前学習済みの部分的/密集的なCLIP特徴量を利用することを学びます。これにより時間のかかる教師-生徒訓練プロセスを回避できます。MaskCLIPはADE20KおよびPASCALデータセットにおいて、意味/インスタンス/パノプティックセグメンテーションに関する以前の手法を上回っています。オンラインでのカスタムカテゴリを使用したMaskCLIPの定性的な例示も示しています。プロジェクトウェブサイト: https://maskclip.github.io.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Open-Vocabulary Universal Image Segmentation with MaskCLIP オープン・ボキャブラリー普遍的画像セグメンテーションにおけるMaskCLIPの利用 | 記事 | HyperAI超神経