Command Palette

Search for a command to run...

15日前

HaluMem:エージェントの記憶システムにおける幻覚の評価

Ding Chen Simin Niu Kehang Li Peng Liu Xiangping Zheng Bo Tang Xinchi Li Feiyu Xiong Zhiyu Li

HaluMem:エージェントの記憶システムにおける幻覚の評価

要約

メモリシステムは、大規模言語モデル(LLM)やAIエージェントなどのAIシステムが長期学習および持続的な相互作用を実現する上で不可欠な構成要素である。しかし、メモリの格納や取得の過程において、これらのシステムはしばしばメモリの幻覚(ハルシネーション)を示すことがあり、これは架空の情報の生成、誤り、矛盾、情報の漏れなどに現れる。従来のメモリハルシネーション評価は、主にエンドツーエンドの質問応答に依存しており、ハルシネーションがメモリシステムのどの操作段階で生じているかを特定することが困難である。この課題に対処するため、本研究では、メモリシステムに特化した、初めての操作段階レベルのハルシネーション評価ベンチマーク「HaluMem(Hallucination in Memory Benchmark)」を提案する。HaluMemは、メモリの抽出、更新、質問応答の3つの評価タスクを定義し、対話の異なる操作段階におけるハルシネーション行動を包括的に明らかすることを目的としている。評価を支えるために、ユーザー中心のマルチターン人間-AI対話データセット「HaluMem-Medium」と「HaluMem-Long」を構築した。両データセットとも約15,000件のメモリポイントと3,500件の多様なタイプの質問を含み、ユーザーあたりの平均対話長はそれぞれ1,500ターンおよび2,600ターンに達し、コンテキスト長は100万トークン以上に及ぶ。これにより、異なるコンテキスト規模やタスクの複雑さを想定したハルシネーション評価が可能となる。HaluMemを用いた実証研究の結果、既存のメモリシステムは、抽出段階および更新段階でハルシネーションを生成・蓄積し、その誤りが質問応答段階に伝播する傾向があることが明らかになった。今後の研究では、ハルシネーションを体系的に抑制し、メモリの信頼性を向上させるため、解釈可能で制約付きのメモリ操作メカニズムの開発に注力すべきである。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
HaluMem:エージェントの記憶システムにおける幻覚の評価 | 論文 | HyperAI超神経