HyperAIHyperAI

Command Palette

Search for a command to run...

Deep ViT Features を用いた Dense Visual Descriptors

Shir Amir Yossi Gandelsman Shai Bagon Tali Dekel

概要

私たちは、事前学習されたビジョントランスフォーマー(ViT)から抽出した深層特徴を、稠密な視覚記述子としての利用について研究しています。自己教師なしViTモデル(DINO-ViT)から抽出したこのような特徴が、以下のいくつかの注目すべき特性を持つことを観察し、実証的に示しています:(i) 特徴は、オブジェクトの部分など、高い空間的粒度で強力かつ正確に位置情報をエンコードします;(ii) エンコードされた意味情報は、関連する異なるオブジェクトカテゴリ間で共有されています;(iii) 位置的なバイアスは層を通じて徐々に変化します。これらの特性により、共セグメンテーション、部分共セグメンテーション、意味対応などのさまざまなアプリケーション向けに単純な手法を設計することが可能となります。複雑な設計選択肢からViT特徴の力を抽出するために、私たちは軽量なゼロショット手法(例:ビニングとクラスタリング)を直接特徴に適用することに制限しています。これらの手法は追加の学習やデータを必要としないため、さまざまなドメインでの即時適用が可能です。広範な定性的および定量的評価によって示されるように、私たちの単純な手法は最近の最先端の教師あり手法と競合する結果を達成しており、以前の教師なし手法よりも大幅に優れています。コードは dino-vit-features.github.io で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています