Decoding-time Realignment (DeRa) は、言語モデルが回答を生成する際にモデルの整合度を調整する方法で、スイスのバーゼル大学、イギリスとフランスの大学、Google DeepMind の研究者によって 2024 年に開発されました。 Google Research が 2016 年に共同で提案した論文結果です。言語モデルのデコード時の再調整」が ICML-2024 に受理され、スポットライト プレゼンテーションに選ばれました (応募総数のうち 3.5% のみ)。
このテクノロジーの核となるアイデアは、モデルを再トレーニングすることなく、デコードプロセス中にモデルのアライメントを動的に調整することで、コンピューティングリソースを節約し、研究効率を向上させることです。具体的には、デコード時間再調整法 (DeRa) は、回答を生成するときに報酬と正則化の比率を調整します。教師あり微調整 (SFT) モデルと元の出力 (ロジット) の位置合わせモデルを補間することで、さまざまな正則化強度を近似し、モデルの位置合わせの程度の制御を実現します。この方法はシンプルで柔軟であり、モデルを繰り返しトレーニングすることによる計算オーバーヘッドを回避しながら、さまざまなニーズに応じて位置合わせの強度を調整できます。
さらに、この技術は、DeRa がデコード中に言語モデルのアライメントをどのように調整するかを示す Zephyr-7b モデルの実験や、DeRa との世代長と要約タスクの類似性に関する実験など、複数の実験で良好な結果を示しています。再訓練されたモデルと幻覚を軽減する可能性が検証されています。