HyperAI

大規模言語モデル（LLM）における「文脈内学習」（In-Context Learning, ICL）は、入力と出力を提示することでモデルに学習させる手法として有効性が示されている。しかし、例の選択が不適切だと、モデルの出力が不正確または不必要な情報を含むようになる。Google DeepMindが発表した研究「AuPair: Golden Example Pairs for Code Repair」は、この課題に系統的なアプローチで取り組んでいる。従来のICLでは、例の選定がランダムまたは直感に基づくことが多く、どの例が最も効果的かを定量的に評価する仕組みが欠けていた。AuPairは、まず大量の「バグコードとその修正例」のペアを生成し、その後、検証データセット上で各ペアの効果を測定する。具体的には、各ペアを1ショット例として用いて、検証用のバグコードを修正させ、ユニットテストで正解率を評価。これにより、各ペアがどの問題にどれだけ貢献するかを数値化した「品質行列」を作成する。次に、グリーディアルゴリズムを用いて、平均スコアが高いペアから順に選定。選ばれたペアの影響を行列から差し引くことで、重複した知識の提供を避け、補完的なペアのみを採用。このプロセスを、改善が閾値を下回るまで繰り返すことで、「黄金ペア（AuPairs）」のリストが得られる。実験では、7つのコード問題データセットと5種類のLLMで評価。AuPairsは、従来の自己反省やBest-of-Nサンプリングを上回る性能を示し、32個のランダム例が必要な性能を、わずか12個のAuPairsで達成。さらに、CodeForcesで学習したAuPairsは、HackerEarthやAtCoderといった異なるデータセットでも有効性を発揮。これにより、同一ドメイン内で汎用性が高いことが実証された。一方、制限点も存在する。大量のLLM呼び出しによる高い初期計算コスト、ユニットテストなどの評価メトリクスの必要性、現実の複雑なコードベースへの適用限界がある。また、補完的な例が必ずしも全領域で有効とは限らない。結論として、AuPairは、ICLにおける例の選定を「科学的・系統的」に進化させる画期的な手法である。コード修復に限らず、テキストからSQL生成など、評価可能なドメインへの応用が期待される。初期コストは大きいが、高い効率性と汎用性から、AI開発における例の設計の新たな基準となる可能性がある。

【Google DeepMindが開発】「黄金例」を自動選定する新手法が、コード修復におけるインコンテキスト学習を劇的に進化

Related Links