Command Palette
Search for a command to run...
Ding Chen Simin Niu Kehang Li Peng Liu Xiangping Zheng Bo Tang Xinchi Li Feiyu Xiong Zhiyu Li

초록
메모리 시스템은 대규모 언어 모델(Large Language Models, LLMs)과 AI 에이전트와 같은 인공지능 시스템이 장기 학습과 지속적인 상호작용을 가능하게 하는 핵심 구성 요소이다. 그러나 메모리 저장 및 검색 과정에서 이러한 시스템은 허구 생성, 오류, 갈등, 누락 등 다양한 형태의 메모리 환각(mental hallucination)을 자주 보인다. 기존의 메모리 환각 평가 방식은 주로 종단 간(question answering) 평가에 국한되어 있어, 환각이 발생하는 메모리 시스템 내의 구체적인 운영 단계를 정확히 파악하기 어렵다. 이를 해결하기 위해 우리는 메모리 시스템에 특화된 최초의 운영 단계 수준의 환각 평가 벤치마크인 '메모리 환각 벤치마크(Hallucination in Memory Benchmark, HaluMem)'를 제안한다. HaluMem은 메모리 추출, 메모리 갱신, 메모리 질의 응답의 세 가지 평가 과제를 정의함으로써, 상호작용의 다양한 운영 단계에서 발생하는 환각 행동을 종합적으로 분석할 수 있도록 한다. 평가를 지원하기 위해 사용자 중심의 다회화형 인간-AI 상호작용 데이터셋인 HaluMem-Medium와 HaluMem-Long을 구축하였다. 두 데이터셋 모두 약 15,000개의 메모리 포인트와 3,500개의 다형질의 질문을 포함하고 있으며, 사용자당 평균 대화 길이는 각각 1,500회와 2,600회에 달하며, 컨텍스트 길이가 100만 토큰을 초과하여, 다양한 컨텍스트 규모와 과제 복잡도에서의 환각을 평가할 수 있는 환경을 제공한다. HaluMem 기반의 실증 연구 결과, 기존의 메모리 시스템은 메모리 추출 및 갱신 단계에서 환각을 생성하고 누적하는 경향이 있으며, 이는 후속 질의 응답 단계로 오류가 전파됨을 확인하였다. 향후 연구는 환각을 체계적으로 억제하고 메모리 신뢰도를 향상시키기 위해, 해석 가능하고 제약 조건이 있는 메모리 운영 메커니즘의 개발에 초점을 맞추어야 할 것이다.