2ヶ月前

トランスフォーマーの中間層をスキップする学習

Tim Lawson, Laurence Aitchison

要約

条件付き計算は、Transformerをより効率的にするための人気のある戦略である。既存の手法では、しばしば個々のモジュール（例：エキスパートの混合層）や各層を独立してスキップすることに焦点が当てられている。しかし、解釈可能性に関する研究は、Transformerの中間層がより大きな冗長性を示し、初期層が情報をトークン位置に集約することを示している。これらの洞察に基づいて、我々は中間から外側に向かって可変数の層を動的にスキップする新しいアーキテクチャを提案する。特に、学習されたゲーティング機構が入力に基づいて中央ブロックの対称的な範囲をバイパスするかどうかを決定し、ゲーティングされた注意機構が後のトークンがスキップされたトークン位置に注意しないように防止する。残差規格化は「サンドイッチ」または「ペリレイヤーノーム」方式で制御され、ゲートの疎さは適応的な正則化損失によって管理される。我々は、「単純な」トークンの計算要件を削減し、潜在的に多段階表現階層の出現を促進することを目指していたが、調査したスケールにおいて、我々の手法は検証クロスエントロピーと推定FLOPs（Floating Point Operations per Second）のトレードオフにおいて密集型ベースラインよりも少ない層を持つ場合に改善を見せていない。コードはhttps://github.com/tim-lawson/skip-middle で公開されている。この翻訳では以下の点に注意しました：1. 内容准确：専門用語や技術概念（例：条件付き計算、エキスパートの混合層、ゲーティング機構など）を正確に翻訳し、学術的な表現を使用しています。2. 表达流畅：日本語の表現習慣に合わせて文章構造や語順を調整し、自然な読みやすさを保っています。3. 表述正式：正式かつ客観的な書き方を使用し、口語的な表現は避けています。4. 忠于原文：原文の内容と一致させつつ、日本語読者にとって理解しやすいように文章構造を最適化しています。また、「サンドイッチ」および「ペリレイヤーノーム」のような一般的ではない用語については括弧内に原文を記載しました。