HyperAIHyperAI

Command Palette

Search for a command to run...

表現学習のための効率的な自己教師付きビジョンTransformer

Chunyuan Li Jianwei Yang Pengchuan Zhang Mei Gao Bin Xiao Xiyang Dai Lu Yuan Jianfeng Gao

概要

本稿では、視覚表現学習に向けた効率的な自己教師付きビジョン変換器(EsViT)の開発を目的として、2つの技術を検討する。まず、包括的な実証的研究を通じて、スパース自己注意機構を用いた多段階アーキテクチャがモデリングの複雑性を著しく低減できる一方で、画像領域間の細粒度な対応関係を捉える能力が損なわれるという課題を示した。次に、領域マッチングを新たな事前学習タスクとして提案することで、モデルが細粒度な領域間依存関係を捉える能力を獲得でき、学習された視覚表現の質を大幅に向上させることを実証した。本研究の結果、これらの技術を組み合わせることで、EsViTはImageNetの線形プローブ評価においてトップ1精度81.3%を達成し、従来手法と比べて約1桁高いスループットを実現した。下流の線形分類タスクへの転移においても、18個のデータセットのうち17個で、教師あり学習を用いた対応モデルを上回った。本研究のコードおよびモデルは公開されており、以下のURLから入手可能である:https://github.com/microsoft/esvit


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています