2ヶ月前

大規模データパラダイムからの脱却:コンパクトなトランスフォーマーの活用

Ali Hassani; Steven Walton; Nikhil Shah; Abulikemu Abuduweili; Jiachen Li; Humphrey Shi
大規模データパラダイムからの脱却:コンパクトなトランスフォーマーの活用
要約

言語処理におけるTransformerの台頭と、コンピュータビジョン分野での進歩に伴い、パラメータ数と学習データ量が増加する傾向が見られています。これにより、多くの研究者が小規模なデータセットには適していないという見方を示しています。このトレンドは、特定の科学分野でのデータの限られた可用性や、リソースに制約のある人々がその分野の研究から排除されるといった懸念につながっています。本論文では、Compact Transformers(コンパクトトランスフォーマー)を導入することで小規模学習へのアプローチを提示することを目指します。私たちは初めて、適切なサイズと畳み込みトークン化によってトランスフォーマーは過学習を避けることができ、小規模データセットにおいて最先端のCNNを上回る性能を発揮できることを示します。私たちのモデルはモデルサイズにおいて柔軟で、競争力のある結果を得ながら0.28M(ミリオン)以下のパラメータを持つことができます。最良のモデルはCIFAR-10で3.7M(ミリオン)のパラメータのみを使用し、ゼロから学習させることで98%の精度を達成しました。これは以前のトランスフォーマーに基づくモデルよりも10倍以上小さいにもかかわらず、ResNet50の15%ほどのサイズでありながら同程度の性能を達成しており、データ効率面での大幅な改善です。また、CCTは多くの現代的なCNNベースアプローチや最近のNASベースアプローチも上回ります。さらにFlowers-102では99.76%というトップ-1精度で新しいSOTA(State Of The Art)結果を得ました。ImageNetでもViTと比較して29%少ないパラメータ数で82.71%の精度を達成し既存の基準を超えるとともに、NLPタスクでも改善を遂げています。トランスフォーマーに対する私たちの単純かつコンパクトな設計は、計算資源に制約のある人々や小規模データセットを取り扱う人々にとってより実現可能なものとなりつつあり、既存のデータ効率的なトランスフォーマーに関する研究努力を拡大しています。当該コードおよび事前学習済みモデルは公開されており、https://github.com/SHI-Labs/Compact-Transformers からアクセスできます。

大規模データパラダイムからの脱却:コンパクトなトランスフォーマーの活用 | 最新論文 | HyperAI超神経