11日前

マスク画像残差学習を用いた深層Vision Transformerのスケーリング

Guoxi Huang, Hongtao Fu, Adrian G. Bors
マスク画像残差学習を用いた深層Vision Transformerのスケーリング
要約

より深いVision Transformer(ViT)の学習はより困難である。本研究では、事前学習にマスク画像モデリング(MIM)を用いる場合、ViTの深層部に著しい性能劣化問題が生じることを明らかにした。深いViTの学習を容易にするために、マスク画像残差学習(Masked Image Residual Learning; MIRL)と呼ばれる自己教師学習フレームワークを提案する。この手法は、深層部における性能劣化を顕著に緩和し、ViTの深さ方向へのスケーリングが性能向上の有望なアプローチであることを実証した。MIRLでは、ViTの深層部の事前学習目標を「マスクされた画像の残差を復元する」こととして再定式化している。広範な実証的実験により、MIRLを用いることで深いViTが効果的に最適化可能であり、深さの増加に伴って精度が自然に向上することを示した。計算量がViT-BaseおよびViT-Largeと同等の条件下で、それぞれ4.5倍および2倍に深いViT、すなわちViT-S-54およびViT-B-48を構築した。ViT-S-54はViT-Largeの3分の1の計算コストで、性能はViT-Largeと同等を達成した。また、ViT-B-48はImageNet上でトップ1精度86.2%を達成した。一方で、MIRLで事前学習されたより深いViTは、物体検出やセマンティックセグメンテーションといった下流タスクにおいて優れた汎化性能を示した。他方、MIRLは高い事前学習効率を示しており、他の手法と比較して短時間の事前学習で競争力のある性能を達成することが可能である。

マスク画像残差学習を用いた深層Vision Transformerのスケーリング | 最新論文 | HyperAI超神経