HyperAI

Transformerアーキテクチャの進化シリーズ第2弾では、シーケンスモデリングにおける「自己注意（Self-Attention）」の仕組みとその革命的な意義を解説する。前回のRNN（再帰型ニューラルネットワーク）では、長距離依存関係の処理に限界があり、勾配消失問題が深刻だった。これに対して、Transformerは完全に異なるアプローチを採用し、すべてのトークンが他のすべてのトークンに直接関連づける仕組みを導入した。自己注意機構は、ある単語（トークン）が他の単語とどの程度関係しているかを計算する。たとえば、「猫が鼠を追いかけて、鼠は恐怖で震えた」という文で、「it」が何を指しているかを理解する際、人間は文脈から「鼠」であると即座に判断する。Transformerはこのプロセスを再現するため、各トークンに対して「Query（質問）」「Key（キー）」「Value（値）」という3つのベクトルを生成する。Queryは「誰を指しているか？」と尋ね、Keyは「自分が何に該当するか？」を示し、Valueはその意味を含む。これらのベクトル間のドット積で類似度（アテンションスコア）を計算し、スケーリング後にソフトマックスで正規化。最終的に、各トークンの「価値」を重み付き平均して、新たな表現を生成する。この仕組みにより、Transformerは一度に全トークンの関係を把握でき、低レベルの構文関係（例：主語-動詞）から高レベルの意味的関係（例：照応解決）まで、層を重ねるごとに抽象度が高まる。BERTVizによる可視化では、初期層で「猫」と「追いかける」の関係が強調され、深層で「it」が「鼠」を指していることが明確に識別される。 Transformerの成功の理由は、3点に集約される。第一に、勾配が直接伝わるため「長距離依存」の問題が解消。第二に、トークン同士の処理が並列化可能で、GPU上で高速に学習できる。第三に、事前学習で得た知識を微調整で活用でき、少ないデータでも高い性能が得られる。また、パラメータを増やすことで性能が継続的に向上する「スケーラビリティ」も特徴。一方、課題も存在する。推論時はトークンを1つずつ生成するため、逐次処理が避けられず遅延が生じる。誤りは後から修正できず、誤りが伝搬する「誤差蓄積」のリスクがある。また、デフォルトのデコーディングでは出力が固定され、多様性に欠ける。これらは温度調整や他のサンプリング手法で緩和されるが、根本的な制約は残る。 Transformerは、AIの進化において「自己注意」がいかに核心的な役割を果たしたかを示した。そのシンプルさと強力な拡張性が、現代の大規模言語モデルを支えている。

Transformerの進化②：自己注意機構がもたらした序列モデリングの革命

Related Links