Command Palette
Search for a command to run...
SparseSwin:スパーストランスフォーマーブロックを搭載したSwin Transformer
SparseSwin:スパーストランスフォーマーブロックを搭載したSwin Transformer
Krisna Pinasthika Blessius Sheldo Putra Laksono Riyandi Banovbi Putera Irsal Syifa Hukma Shabiyya Novanto Yudistira
概要
コンピュータビジョン分野における研究の進展により、トランスフォーマー構造はコンピュータビジョンタスクにおける最先端技術(SOTA)として定着している。しかし、トランスフォーマー構造にはパラメータ数が多いため、アルゴリズムが複雑かつ非効率になりやすいという知られている課題がある。本研究では、パラメータ数の削減を目的とし、トランスフォーマーの効率性を向上することを目的としている。そこで、スパースなトークン変換機構を導入した改良型トランスフォーマーブロック「Sparse Transformer(SparTa)ブロック」を提案する。このSparTaブロックは、処理対象となるトークン数を削減する機能を有しており、計算負荷の低減を実現する。さらに、Swin-Tアーキテクチャ内にSparTaブロックを組み込み、Swinの入力のダウンサンプリング能力を活かし、初期のトークン数を削減する。提案するSparseSwinモデルは、ImageNet100、CIFAR10、CIFAR100の各データセットにおいて、それぞれ86.96%、97.43%、85.35%の精度を達成し、他の最先端モデルを上回る性能を示した。パラメータ数が少ないにもかかわらず、高い性能を実現したことから、限定的なトークン数を用いたスパーストークン変換機構を有するトランスフォーマー構造が、計算効率の最適化と性能向上の可能性を示していることが明らかになった。