
要約
視覚変換器(ViT)の普及とモデルサイズの拡大に伴い、計算リソースが限られたエッジデバイスへの展開において、より効率的で計算コストが低いモデル実装への関心が高まっている。バイナリ化は、重みと活性化値をバイナリにすることで、モデルサイズおよび計算コストを大幅に削減する有効な手法であり、バイナリ演算(popcount)を活用できる。しかし、ImageNet-1kのようなクラス数が多数存在するデータセットにおいて、従来の畳み込みニューラルネットワーク(CNN)向けのバイナリ化手法や既存のバイナリ化手法を直接ViTに適用すると、CNNに比べて性能低下が顕著に大きくなる。広範な分析の結果、バイナリ化された単純なViT(例:DeiT)は、バイナリCNNが高い表現能力を発揮できるようにする重要なアーキテクチャ的特徴を欠いていることが明らかになった。そこで本研究では、CNNアーキテクチャの知見を基に、畳み込み演算を導入せずに純粋なViTアーキテクチャにCNN由来の構成要素を統合することにより、バイナリViTの表現能力を強化する「BinaryViT」を提案する。具体的には、トークンプール層の代わりに平均プーリング層を導入し、複数の平均プーリングブランチを含むブロック、各メインリジッド接続の加算直前にアフィン変換を配置する構造、およびピラミッド構造を採用している。ImageNet-1kデータセットにおける実験結果から、これらの構成要素が有効であることが示され、バイナリ化された純粋なViTモデルが、従来の最先端(SOTA)バイナリCNNモデルと競合可能な性能を達成できることを確認した。