HyperAIHyperAI

Command Palette

Search for a command to run...

マスク自動符号化器のためのターゲット表現の探求

Xingbin Liu Jinghao Zhou Tao Kong Xianming Lin Rongrong Ji

概要

マスク付きオートエンコーダーは、自己教師付き視覚表現学習において人気のある学習枠組みとして広く用いられている。これらのモデルは、入力の一部をランダムにマスクし、マスクされた部分をターゲット表現に基づいて再構成する。本論文では、良い表現を学習するためにはターゲット表現の慎重な選択が必ずしも不要であることを示す。なぜなら、異なるターゲット表現が類似した挙動を示すモデルを導く傾向があるからである。この観察に基づき、我々はマルチステージのマスク付き知識蒸留パイプラインを提案し、教師モデルとしてランダムに初期化されたモデルを用いることで、ターゲット表現の設計に余計な努力を払うことなく、高容量モデルを効果的に学習可能とする。興味深いことに、さらに大規模な容量の教師モデルを用いることで、顕著な転移能力を持つ学生モデルを獲得できることが明らかになった。分類、転移学習、物体検出、セマンティックセグメンテーションといったさまざまなタスクにおいて、ブートストラップされた教師モデルを用いたマスク付き知識蒸留(dBOT)という本手法は、従来の自己教師付き手法を著しく上回る性能を達成した。本研究の知見および提案手法が、マスク付きオートエンコーダーの事前学習におけるターゲット表現の役割を再考する契機となることを期待する。コードおよび事前学習済みモデルは、https://github.com/liuxingbin/dbot にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
マスク自動符号化器のためのターゲット表現の探求 | 記事 | HyperAI超神経