HyperAI초신경
Back to Headlines

하버팀, 에이전트 기억 관리 핵심 규칙 밝혀

6일 전

최근 대규모 언어 모델의 급속한 발전으로 인해 다양한 분야에서 인공지능 에이전트(Agent)가 활발히 활용되고 있다. 이러한 에이전트는 코드 생성, 자율주행, 개인 비서 등에서 높은 잠재력을 보여주며, 지속적인 학습을 통해 성능을 향상시키기 위해 인간처럼 기억 능력을 갖추는 것이 중요하다. 구체적으로, 에이전트는 과거의 작업 입력과 결과를 기록하고 기억해 새로운 작업에서 효과적인 성과를 내야 한다. 하지만 현재 대부분의 에이전트는 특정 작업에 맞춰 설계된 기억 모듈을 사용하고 있어, 기억 관리의 일반적인 원리나 공통점을 연구하는 데 어려움을 겪고 있다. 예를 들어 자율주행 에이전트는 차량의 이동 경로와 상태 데이터를 저장하고, 코드 생성 에이전트는 코드 조각을 보관하며, 개인 비서형 에이전트는 대화 내용을 요약하는 방식을 사용한다. 이러한 분산된 설계 방식은 기억 관리의 일반성과 일관성을 확보하는 데 큰 장애물이 되고 있다. 이러한 문제를 해결하기 위해 미국 일리노이 대학교 어바나-차머피언 캠퍼스 졸업생이자 현재 하버드 대학교 박사과정에 재학 중인 서자디(熊梓迪)와 연구팀은 기억 관리의 기본 원리인 '추가'와 '삭제'에 주목했다. 이 두 가지 기본 작업은 에이전트가 새로운 작업 결과를 기억할지 여부를 판단하고, 과거 기억을 언제, 어떤 기준으로 지울지를 결정하는 데 중요한 역할을 한다. 연구팀은 다양한 정확도의 외부 피드백을 이 두 가지 작업의 기준으로 삼아 실험을 진행했고, 세 가지 핵심적인 현상을 발견했다. 첫째는 '경험 추종 현상'(Experience-Following)이다. 이는 에이전트가 현재 작업을 처리할 때 유사한 과거 작업의 출력을 복사하려는 경향을 의미한다. 이 현상은 기억의 질에 관계없이 일관되게 나타나며, 에이전트의 결정에 영향을 미칠 수 있다. 둘째는 '오류 확산 효과'(Error Propagation)이다. 외부 피드백의 정확도가 낮거나 평가 기준이 불명확할 경우, 잘못된 또는 저품질의 작업 결과가 기억에 저장되어 이후 작업에서 계속해서 반복되고, 결국 에이전트의 장기적인 성능 저하로 이어질 수 있다. 셋째는 '경험 재생 불일치'(Misaligned Memory Replay)이다. 정확한 기억이라도 현재 작업의 맥락과 맞지 않거나 오래된 정보일 경우, 에이전트의 성능을 방해할 수 있다. 따라서 정밀한 외부 피드백을 통한 지속적인 유지 및 삭제가 필수적이다. 이 연구는 오랫동안 간과되었던 외부 피드백의 정확성과 신뢰성이 기억 관리 설계에서 중요한 역할을 한다는 점을 밝혀냈다. 대부분의 실제 시나리오에서는 이러한 고품질 피드백이 부족해, 에이전트의 기억 시스템이 오히려 성능을 저하시킬 수 있다. 연구팀은 본 연구가 대규모 언어 모델 기반 에이전트의 다양한 모듈에 대한 일반적인 메커니즘 연구를 촉진할 수 있기를 기대하며, 향후 기억 모듈 설계에 실증적 기준을 제공할 수 있을 것으로 보고 있다. 서자디는 연구 초기에 복잡한 방법을 시도했으나, 작업의 차이가 커 일반적인 해결책을 도출하기 어려웠다고 밝혔다. 이후 연구팀은 기억의 기본 작업에 집중해, 다양한 분야의 에이전트를 대상으로 실험을 진행했다. 이 연구는 의료 데이터, 자율주행, 사물인터넷 보안 등 다양한 분야에서 적용 가능한 메커니즘을 탐구했으며, 이로써 기억 관리의 공통 문제점을 파악하는 데 기여했다. 한편, 연구 과정에서 API 사용 비용이 매우 높았다는 점을 언급하며, 특히 GPT-4o를 기반으로 한 실험에서 수천 개의 작업을 수행하는 데 엄청난 자원이 소요되었다고 토로했다. 이는 연구의 어려움을 보여주는 동시에, 향후 연구에 대한 시사점을 제공한다. 최근 연구팀은 'Memory Management How Impacts LLM Agents: An Empirical Study of Experience-Following Behavior'라는 제목으로 arXiv에 논문을 게재했다. 서자디는 본 논문의 제1 저자로 참여했다. 향후 연구팀은 고품질 외부 피드백이 부족한 환경에서 기억 모듈이 야기할 수 있는 부정적 영향을 최소화하고, 장기적인 성능 향상을 도모하는 연구를 이어갈 계획이다. 이는 실제 대규모 언어 모델 에이전트의 활용에 있어 매우 중요한 가치를 지닌다고 밝혔다.

Related Links