Command Palette
Search for a command to run...
Mem-α: 강화학습을 통한 메모리 구축 학습
Mem-α: 강화학습을 통한 메모리 구축 학습
Yu Wang Ryuichi Takanobu Zhiqi Liang Yuzhen Mao Yuanzhe Hu Julian McAuley Xiaojian Wu
초록
대규모 언어 모델(LLM) 에이전트는 제한된 컨텍스트 창(문맥 창)에 의해 제약을 받으며, 장기 정보 이해를 위해 외부 메모리 시스템이 필요하다. 기존의 메모리 증강 에이전트는 일반적으로 메모리 업데이트를 위해 사전 정의된 지시사항과 도구에 의존한다. 그러나 언어 모델은 어떤 정보를 저장할지, 어떻게 구조화할지, 언제 업데이트할지 결정하는 능력이 부족할 수 있으며, 특히 메모리 시스템이 점점 더 복잡해질수록 이러한 한계가 두드러진다. 이로 인해 메모리 구조가 비최적화되거나 정보 손실이 발생한다. 이를 해결하기 위해 우리는 상호작용과 피드백을 통해 복잡한 메모리 시스템을 효과적으로 관리할 수 있도록 에이전트를 훈련하는 강화학습 기반 프레임워크인 Mem-alpha를 제안한다. 또한, 다양한 다턴(다단계) 상호작용 패턴을 포함하는 전용 훈련 데이터셋을 구축하였으며, 효과적인 메모리 관리를 교육하기 위해 포괄적인 평가 질문들을 함께 구성하였다. 훈련 과정에서 에이전트는 순차적인 정보 조각을 처리하며 관련 내용을 추출하고 저장한 후 메모리 시스템을 업데이트한다. 보상 신호는 전체 상호작용 이력에 대한 후속 질문 응답 정확도로부터 도출되며, 메모리 구축 최적화를 직접적으로 목표로 한다. 제안된 훈련 프레임워크의 효과를 입증하기 위해, 핵심 메모리, 사건적 메모리, 의미적 메모리 구성 요소를 포함하는 메모리 아키텍처를 설계하였으며, 메모리 운영을 위한 여러 도구를 함께 제공하였다. 실증적 평가 결과, Mem-alpha는 기존 메모리 증강 에이전트 기준보다 유의미한 성능 향상을 달성하였다. 훈련 시 최대 3만 토큰 길이의 예시만을 사용했음에도 불구하고, 에이전트는 40만 토큰을 넘는 시퀀스에 대해 뛰어난 일반화 능력을 보였으며, 이는 훈련 길이의 13배 이상에 해당하는 길이에서도 안정적인 성능을 유지함으로써 Mem-alpha의 강건성을 입증한다.