7日前

マスク自動符号化器のためのターゲット表現の探求

Xingbin Liu, Jinghao Zhou, Tao Kong, Xianming Lin, Rongrong Ji
マスク自動符号化器のためのターゲット表現の探求
要約

マスク付きオートエンコーダーは、自己教師付き視覚表現学習において人気のある学習枠組みとして広く用いられている。これらのモデルは、入力の一部をランダムにマスクし、マスクされた部分をターゲット表現に基づいて再構成する。本論文では、良い表現を学習するためにはターゲット表現の慎重な選択が必ずしも不要であることを示す。なぜなら、異なるターゲット表現が類似した挙動を示すモデルを導く傾向があるからである。この観察に基づき、我々はマルチステージのマスク付き知識蒸留パイプラインを提案し、教師モデルとしてランダムに初期化されたモデルを用いることで、ターゲット表現の設計に余計な努力を払うことなく、高容量モデルを効果的に学習可能とする。興味深いことに、さらに大規模な容量の教師モデルを用いることで、顕著な転移能力を持つ学生モデルを獲得できることが明らかになった。分類、転移学習、物体検出、セマンティックセグメンテーションといったさまざまなタスクにおいて、ブートストラップされた教師モデルを用いたマスク付き知識蒸留(dBOT)という本手法は、従来の自己教師付き手法を著しく上回る性能を達成した。本研究の知見および提案手法が、マスク付きオートエンコーダーの事前学習におけるターゲット表現の役割を再考する契機となることを期待する。コードおよび事前学習済みモデルは、https://github.com/liuxingbin/dbot にて公開されている。

マスク自動符号化器のためのターゲット表現の探求 | 最新論文 | HyperAI超神経