HyperAIHyperAI

Command Palette

Search for a command to run...

AIエージェントの異質な議論で数学的推論力を向上——新フレームワークA-HMADが誤りを30%以上削減

中国・华南农业大学と上海財経大学の研究チームが、大規模言語モデル(LLM)の数学的推論能力と信頼性を向上させる新フレームワーク「A-HMAD(適応型異質多エージェント議論)」を開発した。この手法は、複数のAIエージェントが専門性を持ち、互いに議論を交わして共通の答えを導く仕組みで、従来の単一モデルや同質エージェントによる議論を大幅に上回る成果を上げた。研究は『キング・サウード大学コンピュータ・インフォメーションサイエンス』誌に発表された。 LLMは文章生成や情報検索に優れているが、事実の誤りや論理的矛盾を含む「ハルシネーション」が問題視されてきた。研究チームは、この課題を解決するため、異なる役割を持つエージェント(論理的推論、事実検証、戦略立案など)を組み合わせ、動的に議論を調整するA-HMADを設計。議論の進行状況に応じて、どのエージェントが発言するかを最適化する「協調ポリシー」を導入し、多様な視点からの検証を実現した。 さらに、各エージェントの主張を信頼性と確信度に基づいて評価する「共感度最適化モジュール」を搭載。これにより、最終的な回答の正確性と整合性が高まった。実験では、算数問題(GSM8K)、多分野の知識クイズ(MMLU)、人物伝記作成、チェス戦略など6つの難易度の高いベンチマークで、従来の手法や単一モデルを上回る結果が得られた。特に、伝記の事実誤りは30%以上削減され、正解率は4~6%の絶対値向上を達成した。 研究チームは、このアプローチが教育現場や研究分野で、信頼性の高いAI支援システムの基盤になると期待している。今後は、さらに高精度なAIの実現に向けて、フレームワークの改善と実用化が進められる見通しだ。

関連リンク

AIエージェントの異質な議論で数学的推論力を向上——新フレームワークA-HMADが誤りを30%以上削減 | 人気の記事 | HyperAI超神経