メタが開発した「AggLM」で革新:多数決ではなく正解を導くLLMの新たなリーダーシップ
複雑な問題解決において、多数決は正解を導く保証がない。Metaが開発した新技術「AggLM」は、この課題に挑むための革新的な強化学習手法だ。従来のLLM(大規模言語モデル)の性能向上には、複数の回答を生成し、最も頻出するものを正解とみなす「自己整合性(self-consistency)」というアプローチが広く使われてきた。しかし、難解な問題では、多くのモデルが同じ誤った論理に陥り、多数派の答えが誤りになるケースが生じる。まるで教室で、全員が同じ間違いを犯して同じ間違った答えを出すような状況だ。 AggLMは、単に「多い=正しい」という「群衆の知恵」の信頼を覆す。代わりに、各回答の論理的整合性や推論の妥当性を評価し、正解に近い推論プロセスを識別する仕組みを採用。モデルは、多数派の答えを無条件に採用するのではなく、なぜその答えが妥当か、その根拠が論理的かどうかを分析し、優れた推論を「強化」する。このプロセスにより、少数派だが正しく述べられた回答を、正解として浮き彫りにする。 Metaの研究チームは、数学的証明や論理パズルといった複雑な課題において、AggLMが従来手法よりも顕著な性能向上を示したと報告。特に、正解が非直感的で多数派の誤りと一致するような状況でも、正確な答えを抽出できる点が特徴だ。 この技術は、AIが「多数の意見」ではなく「真の正解」を求める道筋を示す画期的な一歩。今後のAIの知的判断能力の向上に向け、推論の質を重視するアプローチの重要性が再認識されている。
