HyperAIHyperAI

Command Palette

Search for a command to run...

想像、探索、批判を通じたLLMの自己改善へ

Ye Tian Baolin Peng Linfeng Song Lifeng Jin Dian Yu Haitao Mi Dong Yu

概要

大規模言語モデル(LLM)は、さまざまなタスクにおいて顕著な能力を発揮しているが、複雑な推論や計画を要するシナリオでは依然として課題を抱えている。近年の研究では、高品質なデータを用いたファインチューニングと高度なプロンプト技法の導入が、LLMの推論能力を強化する上で有効であると示されている。しかしながら、これらのアプローチはデータの可用性と質に本質的に制約を受ける。こうした状況を踏まえ、自己訂正と自己学習が有効な解決策として注目され、LLMが自身の出力を精緻化し、自己評価に基づく報酬から学習する戦略が提案されている。しかし、特に複雑な推論および計画タスクにおいて、LLMが自身の応答を自己改善する効果についてはまだ疑問が残っている。本論文では、LLMの自己改善を実現するための「AlphaLLM」を提案する。AlphaLLMは、モンテカルロ木探索(MCTS)をLLMと統合することで、追加のアノテーションなしにLLMの能力を向上させる自己改善ループを構築している。アルファゴの成功から着想を得て、AlphaLLMは、言語タスクにおけるデータ不足、膨大な探索空間、およびフィードバックの主観性といった、MCTSとLLMを組み合わせた自己改善に特有の課題に対応している。AlphaLLMは、プロンプト合成モジュール、言語タスクに特化した効率的なMCTSアプローチ、そして精確なフィードバックを提供する3つの評価モデル(クライティックモデル)から構成される。数学的推論タスクにおける実験結果から、AlphaLLMが追加のアノテーションなしにLLMの性能を顕著に向上させることを示し、LLMにおける自己改善の可能性を示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
想像、探索、批判を通じたLLMの自己改善へ | 記事 | HyperAI超神経