17日前

ビジョン変換器について皆が知っておくべき3つのこと

Hugo Touvron, Matthieu Cord, Alaaeldin El-Nouby, Jakob Verbeek, Hervé Jégou
ビジョン変換器について皆が知っておくべき3つのこと
要約

自然言語処理における初期の成功を経て、トランスフォーマー構造はコンピュータビジョン分野でも急速に普及し、画像分類、物体検出、セグメンテーション、動画解析といったタスクにおいて、最先端の性能を実現している。本研究では、視覚トランスフォーマー(Vision Transformer)のシンプルかつ実装が容易な変種を基に、以下の3つの知見を提示する。(1)通常は逐次処理される視覚トランスフォーマーの残差層(residual layers)は、精度に顕著な影響を与えることなく、ある程度並列処理が可能である。(2)アテンション層の重みを微調整するだけで、視覚トランスフォーマーを高解像度入力や他の分類タスクに適応させることができる。これにより計算コストの削減、微調整時のピークメモリ消費量の低減が実現され、タスク間で重みの大部分を共有することが可能になる。(3)MLPベースのパッチ前処理層を追加することで、パッチマスキングに基づくBert風の自己教師学習の性能が向上する。これらの設計選択の影響はImageNet-1kデータセットを用いて評価し、ImageNet-v2テストセットでもその有効性を確認した。さらに、6つの小規模データセットを用いた転移学習性能の評価を通じて、本研究の主張を裏付けた。