3ヶ月前
コンテキストオートエンコーダによる自己教師付き表現学習
Xiaokang Chen, Mingyu Ding, Xiaodi Wang, Ying Xin, Shentong Mo, Yunhao Wang, Shumin Han, Ping Luo, Gang Zeng, Jingdong Wang

要約
我々は、自己教師付き表現事前学習のための新たなマスク画像モデリング(MIM)手法、コンテキストオートエンコーダー(CAE)を提案する。本手法では、符号化表現空間における予測を行うことでエンコーダーを事前学習する。事前学習タスクは2つである:マスク表現予測(マスクされたパッチの表現を予測する)と、マスクパッチ再構成(マスクされたパッチを再構成する)。ネットワーク構造はエンコーダー・リグレッサー・デコーダーのアーキテクチャを採用している。エンコーダーは可視パッチを入力として受け取り、リグレッサーは可視パッチの表現および可視・マスクパッチの位置情報を用いて、マスクパッチの表現を予測する。この予測された表現は、エンコーダーによって計算された表現と整合するよう設計されている。その後、デコーダーは予測された符号化表現からマスクパッチを再構成する。CAEの設計により、エンコーダーの学習(表現学習)と、マスク表現予測およびマスクパッチ再構成という具体的なタスクの遂行を明確に分離することが可能となる。また、符号化表現空間における予測を行うことの有効性は、実証的に表現学習に寄与することが示された。我々は、下流タスクにおける優れた転移性能を通じて、本CAEの有効性を実証した。具体的には、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーション、分類の各タスクで優れた結果を達成した。コードは、https://github.com/Atten4Vis/CAE にて公開される予定である。