HyperAIHyperAI

Command Palette

Search for a command to run...

言語モデルは可逆である:入力を完全に復元する新アルゴリズムSipItが発表

Transformerベースの言語モデルが入力の離散的なトークン列を連続的な表現に変換する際、その変換が一対一(単射)であり、逆変換が可能であることを、研究チームが理論的・実証的に明らかにした。従来の考えでは、非線形活性化関数や正規化層の導入により、異なる入力が同じ出力にマッピングされる「衝突」が発生し、入力を完全に復元できないとされてきた。しかし本研究では、モデルの初期化段階から、言語モデルの入力から表現への写像が数学的に単射であることを証明した。この性質は学習過程を通しても維持され、情報損失がないことを意味する。 実証実験では、6つの最先端言語モデルを対象に、数十億回に及ぶ入力ペアの衝突テストを実施。結果として、一切の衝突が確認されなかった。さらに、この単射性を実用化するアルゴリズム「SipIt(Sequence Inversion via Provable Injection and Tracking)」を提案。SipItは、モデルの隠れ表現から元のテキストを線形時間で正確に再構成可能であり、理論的な保証と実際の実行効率を両立している。 この成果により、言語モデルの内部表現が完全に復元可能であることが実証された。これは、モデルの透明性や解釈可能性、安全性の向上に直接的な貢献が期待される。特に、誤った出力の原因を追跡したり、モデルの行動を監視する際に、内部状態から正確な入力を復元できる点が、信頼性の高いAIシステム構築に不可欠な基盤となる。本研究は、言語モデルの構造的性質としての「単射性」を、AIの安全・信頼性向上のための新たな枠組みとして提示している。

関連リンク