10日前

情報パスウェイ仮説：Transformersは動的自己集合体である

Md Shamim Hussain, Mohammed J. Zaki, Dharmashankar Subramanian

要約

Transformerは、長距離の結合性に高い柔軟性をもたらす密な自己注意（self-attention）機構を用いる。深層のTransformerにおいて、複数の層を経るごとに可能な結合パターンの数は指数関数的に増加する。しかし、その中でネットワークの性能に寄与するものはごくわずかであり、特に本質的なものはさらに少ない。我々は、Transformer内に疎結合された部分ネットワーク、すなわち情報伝達経路（information pathways）が存在すると仮定する。これらの経路は独立して学習可能であると考えられる。ただし、これらの経路は動的（入力依存性）であるため、学習中に密な自己注意機構を効果的に削減（pruning）することが困難である。一方で、これらの経路全体の分布はしばしば予測可能である。この事実を活かして、本研究では、Stochastically Subsampled self-Attention（SSA）——Transformer向けの汎用的な学習戦略——を提案する。SSAは、学習中の自己注意機構のメモリ使用量および計算コストを4〜8倍まで削減しつつ、正則化手法としても機能し、密な学習に比べて一般化性能の向上を実現する。また、ネットワーク内のサブサンプリングされた経路から部分モデルのアンサンブルを構築できることを示す。このアンサンブルは、密な自己注意を用いたモデルを上回る性能を達成する。我々は、生成的・判別的設定の両方において、自然言語処理（NLP）、画像認識、グラフ学習といった多様なタスクで実験を行い、提案手法の有効性を実証的に裏付ける。