17日前
HRFormer:密な予測のための高解像度Transformer
Yuhui Yuan, Rao Fu, Lang Huang, Weihong Lin, Chao Zhang, Xilin Chen, Jingdong Wang

要約
我々は、高密度予測タスクに適した高解像度表現を学習する「高解像度Transformer(HRFormer)」を提案する。従来のVision Transformerは低解像度表現を生成する一方で、メモリおよび計算コストが高いため、本研究ではその課題を克服する。HRFormerは、高解像度畳み込みネットワーク(HRNet)で導入されたマルチ解像度並列構造を活用するとともに、小さな非重複画像ウィンドウ内で自己注意(self-attention)を実行する局所ウィンドウ自己注意機構を採用することで、メモリおよび計算効率を向上させた。さらに、離散化された画像ウィンドウ間での情報交換を可能にするために、FFN(Feed-Forward Network)に畳み込み層を導入した。本手法の有効性を、人体ポーズ推定およびセマンティックセグメンテーションの両タスクにおいて実証した。具体的には、COCOポーズ推定においてHRFormerは、パラメータ数を50%削減し、FLOPsを30%削減しながら、Swin Transformerに対して1.3 APの向上を達成した。コードは以下のURLから公開されている:https://github.com/HRNet/HRFormer。