デフトランス

Differential Transformer (略して Diff Transformer) は、2024 年に Microsoft Research と清華大学が共同で提案した新しい Transformer アーキテクチャです。関連する論文結果は「差動トランス』の著者は葉天珠、李東、夏裕清、孫勇涛の計4人。このアーキテクチャの核心は、差分注意メカニズムにあります。これは、従来の Transformer が長いテキストを処理する際に重要な情報を正確に取得することが難しいという問題、いわゆる「中間情報損失」現象を解決するように設計されています。

Diff Transformer は、2 つの独立したソフトマックス アテンション マップを計算し、その差分を計算して最終的なアテンション スコアを取得します。この方法により、アテンション ノイズが効果的に除去され、モデルが入力の最も関連性の高い部分に集中するようになります。このメカニズムは、電気工学におけるノイズ キャンセリング ヘッドフォンや差動アンプに似ており、2 つの信号の差を利用してノイズをキャンセルします。

実験結果は、さまざまな設定における言語モデリング タスクにおいて Diff Transformer が従来の Transformer よりも優れていることを示しています。モデルのサイズとトレーニング トークンの数の点でスケーラブルであるだけでなく、長いコンテキスト モデリング、重要な情報の取得、幻覚の軽減、コンテキスト学習などの実際のアプリケーションでも大きな利点を示します。さらに、Diff Transformer はモデルのアクティベーション値の外れ値を効果的に削減できるため、モデルの定量化がより容易になり、モデルの効率が向上します。

Diff Transformer の提案は、大規模な言語モデルの開発に新しいアイデアを提供し、インテリジェントな対話システム、テキスト生成、データ抽出などの分野で重要な役割を果たすことが期待されています。