HyperAI초신경
Back to Headlines

MemAgent, 강화학습을 활용한 장문 처리 솔루션 소개

2일 전

MemAgent: 강화학습 기반 메모리 에이전트로 대규모 언어 모델의 장문 처리를 재정의하다 장문 문서 처리는 여전히 대규모 언어 모델(LLMs)의 지속적인 과제입니다. 길이 확장이나 희소 주의(sparse attention) 등의 기술을 사용하더라도, 모델들은 성능 저하와 높은 계산 비용을 겪곤 합니다. 이를 해결하기 위해 바이트댄스 세드(ByteDance Seed)와 청화대(Tsinghua University) 연구진들은 MemAgent를 소개했습니다. 이는 강화학습 기반 메모리 에이전트로, 선형 복잡도와 최소 성능 손실을 통해 장문 처리를 가능하게 합니다. 기존 접근 방식의 한계 현재 장문 모델링에 대한 해결책은 크게 세 가지 카테고리로 나뉩니다. 그러나 이러한 접근 방식들은 임의의 입력 길이 지원, 일관된 정확성, 효율적인 선형 복잡도라는 세 가지 핵심 속성을 모두 충족시키지 못합니다. MemAgent: 인간과 같은 메모리 전략 인간이 중요한 정보만 요약하고 노이즈는 무시하는 방식에서 영감을 얻은 MemAgent는 입출력을 증거 스트림으로 처리합니다. 각 단계에서 모델은 문서 조각(chunk)과 내부 메모리를 읽고, 이를 업데이트하여 압축된 맥락으로 대체합니다. 주요 혁신 문맥 추적: 각 문서 조각과의 상호작용을 독립적인 대화로 취급합니다. 강화학습 훈련: 다중 대화 강화학습 파이프라인(DAPO) 내에서 그룹 상대 정책 최적화(GRPO)를 통해 보상 기반의 메모리 업데이트를 수행합니다. 메모리 압축: 답변 관련 정보에 초점을 맞추어 노이즈를 제거합니다. 성능 평가 RULER 벤치마크와 HotpotQA, SQuAD의 합성 데이터셋을 사용하여, MemAgent는 8K 문맥 윈도우에서 최대 3.5백만 토큰까지 훈련되었습니다. | 모델 | 224K | 896K | 3.5M | |----------------|------|------|---------------| | Qwen 2.5-Instruct-14B-1M | 37.5% | 0.0% | N/A | | QwenLong-L1-32B | 17.2% | 11.7% | N/A | | RL-MemAgent-14B | 81.3% | 77.3% | 78.1% | MemAgent는 8K부터 512K 토큰까지 RULER 벤치마크에서 95% 이상의 정확성을 유지하며, 장문 및 압축 기반 기준 모델들보다 일관되게 우수한 성능을 보였습니다. 사례 연구: Multi-Hop QA 예시 질의 "로맨틱 코미디 '빅 스톤 갭'의 감독이 어느 뉴욕 도시에 기반하고 있는가?"에 대해 MemAgent는 3개의 문서 조각을 차례대로 처리하면서 관련 내용을 추적했습니다. 무관한 내용 인식: 그러나 위치 정보를 유지했습니다. 무관한 조각 대응: 메모리에서 무관한 내용을 배제했습니다. Adriana Trigiani의 생애 정보 업데이트: 메모리를 정확히 업데이트했습니다. 최종 답변: 뉴욕 시 그린위치 빌리지. 이론적 기초와 복잡도 MemAgent는 잠재 메모리 변수(m₁...mₖ)를 사용하여 자동회귀 모델을 재구성합니다. [ p(x_1:N) = \sum_{m_1:k} \prod_k p(c_k | m_{k-1}) * p(m_k | c_k, m_{k-1}) ] 이 접근법은 O(N) 계산 비용과 인간이 읽을 수 있는 중간 메모리를 제공하며, 주의 기반 특징 압축과 달리 강화학습이 필수입니다. 메모리 업데이트는 이산적(discrete)이기 때문에 역전파(backpropagation)를 통해 학습할 수 없습니다. 결론 MemAgent는 무제한 입력 길이, 손실이 거의 없는 정확성, 선형 복잡도를 모두 충족하는 장문 처리의 스케일링 문제를 해결합니다. 강화학습 기반 덮어쓰기 메모리 메커니즘 덕분에 LLMs는 수백만 토큰 입력을 처리할 수 있으며, 구조 수정 없이 읽기, 요약, 생성이 가능합니다. 자주 묻는 질문 Q1: MemAgent란 무엇인가? MemAgent는 LLMs에 메모리 토큰을 부여하여 효율적으로 매우 긴 문맥을 처리할 수 있게 하는 강화학습 기반 프레임워크입니다. Q2: 주의나 확장 방법과 어떻게 다른가? 주의 기반 확장 또는 확장 기술과 달리, MemAgent는 강화학습을 통해 메모리 토큰을 업데이트합니다. Q3: MemAgent를 어떤 모델에 적용할 수 있나? 어떤 트랜스포머 기반 LLM에도 적용할 수 있으며, 모델 구조 변경이 필요하지 않습니다. Q4: 입력 크기에 따라 어떻게 확장되나? 메모리 크기를 고정함으로써 입력 길이에 관계없이 선형 계산 복잡도를 유지합니다. Q5: MemAgent의 활용 분야는 무엇인가? 장문 QA, 에이전트 메모리 시스템, 법적 문서 검토, 과학 문헌 분석, 대규모 증거 기반의 실시간 의사결정 등입니다. 산업 전문가의 평가 및 회사 프로필 MemAgent는 장문 처리의 주요 과제를 해결하는 획기적인 접근 방식으로, 특히 큰 데이터셋을 다루는 응용 프로그램에서 큰 잠재력을 보여줍니다. 바이트댄스 세드와 청화대 연구진의 이 연구는 LLMs의 성능과 효율성을 크게 향상시킬 것으로 기대됩니다. 이 연구는 해당 분야의 가장 유명한 AI 개발자들에게 큰 관심을 받고 있으며, 미국과 유럽의 100만 명 이상의 월간 독자와 50만 명 이상의 커뮤니티 구성원에게 영향을 미치고 있습니다.

Related Links