
我々は、画像変換器(Image Transformers)を用いた双方向エンコーダ表現モデル「BEiT(Bidirectional Encoder representation from Image Transformers)」を提案する。自然言語処理分野で開発されたBERTに倣い、視覚変換器(Vision Transformers)の事前学習のために、マスクされた画像モデリングタスクを導入した。具体的には、事前学習段階において各画像に対して2つのビューを用いる:16×16ピクセルなどの画像パッチと、視覚トークン(離散的なトークン)である。まず、元の画像を視覚トークンに「トークン化」する。その後、ランダムに一部の画像パッチをマスクし、それらをバックボーンとなる変換器に投入する。事前学習の目的は、損傷された画像パッチから元の視覚トークンを再構成することにある。BEiTの事前学習を経た後、下流タスク(例:画像分類、セマンティックセグメンテーション)において、事前学習済みエンコーダの上にタスク固有の層を追加し、直接微調整(fine-tuning)を行う。画像分類およびセマンティックセグメンテーションに関する実験結果から、本モデルは従来の事前学習手法と比較しても競争力のある性能を達成することが示された。例えば、ベースサイズのBEiTはImageNet-1Kにおいてトップ1正解率83.2%を達成し、同じ設定下でのスクラッチから学習したDeiT(81.8%)を顕著に上回った。さらに、大規模なBEiTはImageNet-1Kのみを用いても86.3%の精度を達成し、ImageNet-22Kで教師あり事前学習が行われたViT-L(85.2%)をも上回った。コードおよび事前学習済みモデルは、https://aka.ms/beit にて公開されている。