Command Palette
Search for a command to run...
表現学習のための効率的な自己教師付きビジョンTransformer
表現学習のための効率的な自己教師付きビジョンTransformer
Chunyuan Li Jianwei Yang Pengchuan Zhang Mei Gao Bin Xiao Xiyang Dai Lu Yuan Jianfeng Gao
概要
本稿では、視覚表現学習に向けた効率的な自己教師付きビジョン変換器(EsViT)の開発を目的として、2つの技術を検討する。まず、包括的な実証的研究を通じて、スパース自己注意機構を用いた多段階アーキテクチャがモデリングの複雑性を著しく低減できる一方で、画像領域間の細粒度な対応関係を捉える能力が損なわれるという課題を示した。次に、領域マッチングを新たな事前学習タスクとして提案することで、モデルが細粒度な領域間依存関係を捉える能力を獲得でき、学習された視覚表現の質を大幅に向上させることを実証した。本研究の結果、これらの技術を組み合わせることで、EsViTはImageNetの線形プローブ評価においてトップ1精度81.3%を達成し、従来手法と比べて約1桁高いスループットを実現した。下流の線形分類タスクへの転移においても、18個のデータセットのうち17個で、教師あり学習を用いた対応モデルを上回った。本研究のコードおよびモデルは公開されており、以下のURLから入手可能である:https://github.com/microsoft/esvit