HyperAIHyperAI

Command Palette

Search for a command to run...

フランカ: スケーラブルな視覚表現学習のためのネストされたマトリョーシカクラスタリング

Shashanka Venkataramanan Valentinos Pariza Mohammadreza Salehi Lukas Knobel Spyros Gidaris Elias Ramzi Andrei Bursuc Yuki M. Asano

概要

私たちはフランカ(発音:フラン-カ)を紹介します。これは、データ、コード、重みが完全にオープンソースである最初のビジョン基礎モデルであり、DINOv2、CLIP、SigLIPv2などの最先端のプロプライエタリモデルの性能に匹敵し、多くの場合それを上回ります。当社のアプローチはWeb-SSLに触発された透明な学習パイプラインに基づいており、公開されているデータセットであるImageNet-21KとReLAION-2Bのサブセットを使用しています。モデルの公開に加えて、SSLクラスタリング手法における重要な制限を解決しています。現代のモデルでは、Sinkhorn-Knoppなどのクラスタリングアルゴリズムを用いて画像特徴量を大規模なコードブックに割り当てていますが、クラスタリング意味論の固有の曖昧性を考慮していないという問題があります。これを解決するために、ネストしたマトリョーシカ表現に基づくパラメータ効率的なマルチヘッドクラスタリングプロジェクターを導入しました。この設計により、モデルサイズを増やさずに徐々に詳細なクラスターへと特徴量を洗練することができ、性能とメモリ効率の両方を実現します。さらに、位置情報から偏りを取り除く新しい位置解離戦略を提案しています。これにより稠密表現からの位置バイアスが明示的に除去され、意味内容のエンコーディングが改善されます。これによって複数の下流ベンチマークで一貫した向上が見られ、よりクリーンな特徴空間の有用性が示されました。私たちの貢献は透明性と高性能を持つビジョンモデルにおける新たな基準を確立し、広範なAIコミュニティ向けに再現可能で汎化力のある基礎モデルへの道を開きました。コードとモデルチェックポイントは以下のURLで利用可能です:https://github.com/valeoai/Franca


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています