Transformerの進化②:自己注意機構がもたらした序列モデリングの革命
Transformerアーキテクチャの進化シリーズ第2弾では、シーケンスモデリングにおける「自己注意(Self-Attention)」の仕組みとその革命的な意義を解説する。前回のRNN(再帰型ニューラルネットワーク)では、長距離依存関係の処理に限界があり、勾配消失問題が深刻だった。これに対して、Transformerは完全に異なるアプローチを採用し、すべてのトークンが他のすべてのトークンに直接関連づける仕組みを導入した。 自己注意機構は、ある単語(トークン)が他の単語とどの程度関係しているかを計算する。たとえば、「猫が鼠を追いかけて、鼠は恐怖で震えた」という文で、「it」が何を指しているかを理解する際、人間は文脈から「鼠」であると即座に判断する。Transformerはこのプロセスを再現するため、各トークンに対して「Query(質問)」「Key(キー)」「Value(値)」という3つのベクトルを生成する。Queryは「誰を指しているか?」と尋ね、Keyは「自分が何に該当するか?」を示し、Valueはその意味を含む。これらのベクトル間のドット積で類似度(アテンションスコア)を計算し、スケーリング後にソフトマックスで正規化。最終的に、各トークンの「価値」を重み付き平均して、新たな表現を生成する。 この仕組みにより、Transformerは一度に全トークンの関係を把握でき、低レベルの構文関係(例:主語-動詞)から高レベルの意味的関係(例:照応解決)まで、層を重ねるごとに抽象度が高まる。BERTVizによる可視化では、初期層で「猫」と「追いかける」の関係が強調され、深層で「it」が「鼠」を指していることが明確に識別される。 Transformerの成功の理由は、3点に集約される。第一に、勾配が直接伝わるため「長距離依存」の問題が解消。第二に、トークン同士の処理が並列化可能で、GPU上で高速に学習できる。第三に、事前学習で得た知識を微調整で活用でき、少ないデータでも高い性能が得られる。また、パラメータを増やすことで性能が継続的に向上する「スケーラビリティ」も特徴。 一方、課題も存在する。推論時はトークンを1つずつ生成するため、逐次処理が避けられず遅延が生じる。誤りは後から修正できず、誤りが伝搬する「誤差蓄積」のリスクがある。また、デフォルトのデコーディングでは出力が固定され、多様性に欠ける。これらは温度調整や他のサンプリング手法で緩和されるが、根本的な制約は残る。 Transformerは、AIの進化において「自己注意」がいかに核心的な役割を果たしたかを示した。そのシンプルさと強力な拡張性が、現代の大規模言語モデルを支えている。