Command Palette
Search for a command to run...
Edward Y. Chang Ethan Y. Chang

要約
大規模言語モデルは、実用上重要な意味を持つ無害な編集に対して答えを変更する場合がある。たとえば、RAG(Retrieval-Augmented Generation)の出力は、検索結果の並べ替えによって反転し、ファインチューニングでは事前学習段階で学習された不変性が劣化し、ディベートやチェーン・オブ・サム(CoT)プロンプトでは経路依存的な挙動を示し、コンパイラの融合や命令の再順序化によって決定境界付近のロジットが変動する。これらの失敗は意図された不変性を破り、継続的インテグレーション(CI)を崩壊させ、チームが安全性とスピードの両立を諦めざるを得ない状況を生じさせる。これらの影響は微小ではあるが、層や位置にわたり広がっており、コンテキスト長や評価順序に敏感であり、再訓練や形式的検証による修復は費用がかかる。本研究では、内部表現に対する単純なループチェックや順序変更チェックをシステム信号に変換する、最小限の事後診断ツールセット「WILSON」を提案する。WILSONは、JVP(Jacobian-Vector Product)およびHutchinsonプローブを用いて計算される、逆行列を必要としない位置・層ごとの曲率マップと、活性化レベルでの交換子(commutator)を組み合わせ、順序変更のリスクを検出する。これらの信号は計算コストが低く、標準的なTransformerモデルに対してモデル非依存であり、オーケストレーター向けにしきい値やCSV形式のアーティファクトとして出力可能である。これにより、具体的な対策が可能になる:RAGにおける順序効果への対抗、ファインチューニングの性能低下の早期検出、ディベート経路および長文マルチターン文脈の安定化、デプロイメント時の融合や再順序化のゲート制御が実現される。要するに、WILSONは故障の予測を可能にし、安全な最適化の承認を可能にすることで、モデルアーキテクチャや学習プロセスを変更せずに、信頼性とスループットの両立を実現する支援を行う。