HyperAIHyperAI

Command Palette

Search for a command to run...

MITの新研究:AIの監督がより困難になる可能性、Houdiniの成功に必要な一般的知能差が増すと効率低下

MIT の新研究、AI 監督への課題を数値化:より賢い AI を制御することは成功確率 52% 未満も? MIT の研究チームが、高度な AI を適切に監督することがいかに難しいかを示す新研究を発表しました。彼らは「No Safety in Numbers」(NSO)という理論を提案しています。この理論によると、AI の一般的な知能差(Δgeneral)が大きくなるほど、監督を成功させるための最適手順数も増え、監督者の負担が増大します。 一方、特定任務の難易度(Δdomain)が重要であることが明らかになりました。すなわち、AI の一般的な知能差が小さくても、任務自体が非常に難易度が高い場合(Houdini との差が大きければ)、監督は困難となり得ます。 この研究では、興味深い逆転現象も見つかりました。一定の知能差(Δgeneral)が固定され、特定任務の難易度(Δdomain)が著しく高い場合、監督者がより複雑な戦略に陥り、成功確率が低下する可能性があります。「Houdini 利点」がある状況では、単純な手順での監督が最適解となり、追加の手順は成功率を下げることが示唆されています。 研究結果によると、知能差が 400 ポイント(大体 GPT-4.0-latest と Gemini-1.5-Flash の差相当)の時でも、Wargames(約 9.8%)、Mafia(約 25%)、Backdoor Code(約 32%)、Debate(約 51.4%)などのゲーム監督における成功率は極めて低いことを確認しています。 つまり、最適な NSO 策略も futuro-AI(現状を大幅に超える超人工知能)に対しては十分に効力を発揮できない可能性があるということです。監督の成功には、監督のための手順自体の設計が極めて重要であり、未来の「Houdini 類似」モデルに対処するための新たな規則が必要になるかもしれません。 参考資料: 1. https://arxiv.org/abs/2504.18530 2. https://www.lesswrong.com/posts/x59FhzuM9yuvZHAHW/untitled-draft-yhra

関連リンク

MITの新研究:AIの監督がより困難になる可能性、Houdiniの成功に必要な一般的知能差が増すと効率低下 | 人気の記事 | HyperAI超神経