HyperAI초신경
Back to Headlines

AI 모델, 테스트 중에도 기억력 향상 가능할까?

14일 전

AI가 진정으로 우리의 기억처럼 적응할 수 있을까? 메타에서 개발한 CoCoMix (Jihoon et al., 2025)¹은 단순히 다음 토큰을 예측하는 데 그치지 않고, 단어 뒤의 개념을 학습하여 모델을 매우 조절 가능하고 해석 가능하게 만들어 주목받고 있다. 그러나 이러한 개념적으로 뛰어난 모델도 실제 배포 후 세부적인 정보나 사실 회상에 어려움을 겪는다는 핵심 질문이 남아 있다. 예를 들어, "우리가 200만 토큰 대화 중 피노키오의 유명한 긴 코에 대해 어떤 부분에서 논의했는지"와 같은 간단한 질문에도 답할 수 없다면, 이는 모델의 맥락 창窗外의 정보를 처리하지 못하기 때문이다. 따라서, 이 지능형 LLMs가 추론 시점에 필요한 성능 향상이나 "기억"을 갖추는 것이 가능한지가 중요한 화두가 되었다. 현재의 문제점: 트랜스포머 트랜스포머 (Vaswani et al., 2017)²는 현대 AI 분야에서 거의 필수적인 아키텍처로 자리잡았다. 그러나 대규모 모델에 대한 의존성이 깊어지고 컴퓨팅 비용이 증가하면서, 이 "모든 것을 해결하는" 아키텍처마저 한계를 보였다. 주요 문제는 모든 정보를 동시에 처리해야 하는 주의 메커니즘의 비효율성이다. 이는 트랜스포머의 "작업 메모리"를 좁게 만들고, 방대한 문서를 이해하는 데 필요한 "장기 기억"을 제약한다. 또한, 트랜스포머는 훈련 후에도 데이터에 적응해 학습할 수 없다는 점에서 제약을 갖는다. 예를 들어, 구글 맵이 최단 경로를 찾지만 건설 작업을 잊어버리는 것처럼, 인간 가이드는 대안 경로를 알려줄 것이다. 이와 같이, 새로운 경험을 통해 지속적으로 적응하거나 기억할 수 없는 특징은 훈련 세트 외의 과제에 있어 중요한 제한 요인이다. 해결책: 타이탄즈 연구자들은 인간 뇌처럼 지능형 시스템이 어떻게 메모리를 관리하고 새로운 상황에 적응하는지를 더 넓은 관점에서 바라보았다. 인간의 메모리는 하나의 거대한, 항상 접근 가능한 메모리가 아니라 다양한 부품이 서로 협력하여 다양한 유형의 정보와 경험을 처리하는 유연한 체계를 가지고 있다. 타이탄즈의 아키텍처 구성: 메모리 모듈 단기 메모리 (STM): immediately 과거의 세부 정보에 주목하는 전문가다. 현재 상황에 맞춰 주의를 집중하며, 바로 직전에 상대방이 말한 내용을 잠시 기억하는 역할을 한다. 장기 메모리 모듈 (LMM): 가장 흥미로운 추가 기능이다. 이 모듈은 추론 시점에 학습하고 적응할 수 있으며, 매개변수가 변경된다. 이는 친구와 함께 시간이 지남에 따라 경험을 추가하고 중요하지 않은 일을 필터링하는 것과 유사하다. 영속 메모리 (PM): 특정 과제에 대한 기본 지식을 저장한다. 이는 모델이 주요 훈련 과정에서 습득한 학습 가능한 근본적인 통찰력으로, 동적 변화는 없지만 STM과 LMM에 필요한 기초와 맥락을 제공한다. 메모리 모듈의 구현 방식 LMM 모듈은 MLP 네트워크로 구현되며, 추론 시점에 적응하도록 설계되었다. 이는 훈련 시점에만 매개변수를 업데이트하는 것이 아니라, 모델이 이미 알고 있는 내용과 현재 보는 내용만을 사용하여 내부적으로 조정한다는 점에서 혁신적이다. LMM의 학습 방식: 연관 손실 함수 LMM은 "키" (힌트)와 "값" (정보)을 연결하는 연관 메모리로 작동한다. 새로운 데이터 xt (MAG & MAL에서는 입력 청크, STM에서는 자기 주의 출력)가 주어질 때, 모델은 이를 키 kt와 값 vt로 매핑한다. 경사와 "놀람" 신호 LMM은 손실 함수의 경사를 통해 모델이 "예상 밖"인 정도를 측정한다. 큰 경사는 LMM의 현재 지식에 비해 xt가 매우 "예상 밖"이라는 의미다. 놀람을 정교화: 모멘텀과 잊기 즉각적인 "놀람"에 반응하는 것만으로는 충분하지 않다. 좋은 메모리는 트렌드를 파악하고, 불필요한 오래된 정보를 버릴 줄 알아야 한다. LMM은 최근의 놀람과 현재의 놀람을 결합하여 매개변수 조정 방향을 계산하고, 이 결과를 바탕으로 실제 매개변수를 업데이트한다. 타이탄즈의 아키텍처 설계: 메모리가 작동하는 방식 구글 연구진은 STM, LMM, PM 세 가지 메모리 모듈을 어떻게 배치할지를 세 가지 방식으로 탐구했다. 메모리가 문맥인 경우 (MAC) 입력 시퀀스는 세그먼트로 나뉘어 LMM에서 관련된 역사적 문맥을 검색한다. 이 역사적 토큰은 영속 메모리 토큰과 현재 세그먼트 토큰과 결합되어 STM (주의) 레이어로 전달된다. STM 레이어의 출력은 장기 기억 업데이트 과정에 사용되고, 업데이트된 LMM은 다시 주의 결과에 의해 쿼리되어 최종 결과를 생성한다. 메모리가 게이트인 경우 (MAG) 입력 시퀀스는 두 경로로 나누어진다. 하나는 Sliding Window 주의를 사용하는 STM으로, 다른 하나는 LMM 네트워크로 전달된다. LMM의 출력은 STM의 출력과 함께 게이트 메커니즘을 통과하여 최종 결과를 생성한다. 메모리가 레이어인 경우 (MAL) 입력 시퀀스는 먼저 LMM 레이어를 거쳐 처리되며, 매개변수가 동적으로 업데이트된다. 이 변환된 출력 시퀀스는 STM (주의) 레이어로 전달되어 최종 결과를 생성한다. 이 모든 것으로 얻는 이점: 결과와 발견 언어 능력: 단순히 단어 이상 타이탄즈는 단순히 다음 단어를 더 정확히 예측하는 것 이상의 능력을 보여준다. LMM 덕분에 언어와 맥락을 더 직관적으로 이해하며, 강력한 기준 모델들을 능가하는 성능을 보였다. S-NIAH 작업의 도전 타이탄즈는 RULER 벤치마크 (Hsieh et al., 2024)⁸의 S-NIAH 작업에서 우수한 성능을 유지했다. 16K 토큰까지 효과적인 문맥 길이를 유지하는 데 성공했다. 복잡한 추론 과제 마스터하기: BABILong BABILong 벤치마크 (Yury Kuratov et al., 2024)⁹에서 타이탄즈 (특히 MAC 아키텍처)는 다른 대형 모델들보다 우수한 성능을 보였다. 1000만 토큰에서도 70%의 정확도를 유지하는 등, 방대한 맥락에서의 다중 사실 추론 능력을 입증했다. 메모리 깊이 대 처리 속도 LMM의 깊이를 늘리면 중요한 정보를 저장하고 조직하는 능력이 향상되지만, 처리 속도가 약간 감소하는 단점이 있다. 언어 작업 외의 활용 타이탄즈의 메모리 메커니즘은 시간 시리즈 예측과 DNA 모델링 같은 비언어 작업에서도 효과를 발휘했다. 이는 메모리 메커니즘이 잘 처리되면 다양한 분야에서 필수적인 요소가 될 수 있음을 시사한다. 결론과 마무리 생각 타이탄즈는 AI가 이미 알고 있는 것에만 의존하지 않고, 진행 중에 적응할 수 있는 미래를 제시한다. 이는 메타가 트랜스포머를 발명한 이후로 계속되는 기초적인 연구의 자연스러운 발전이다. 그러나 현재 AI 분야는 2017년보다 훨씬 경쟁이 치열하다. 성능뿐만 아니라 효율성, 단순성, 커뮤니티의 인지도가 중요하다. 그럼에도 불구하고, 타이탄즈는 모델이 진행 중에 진정으로 학습하고 적응할 수 있는 미래를 위한 희망적인 단계를 제시한다. 업계 인사들의 평가 및 회사 프로필 타이탄즈는 AI 분야에서 메모리와 학습의 새로운 접근법을 제시하며, 기존 트랜스포머 아키텍처의 한계를 극복하는 획기적인 시도로 평가받고 있다. 메타는 이 연구를 통해 AI가 더욱 지능적이고 적응력을 갖춘 미래를 위한 기반을 마련하고 있으며, 이는 AI 기술의 다음 단계 발전을 예고하고 있다. 타이탄즈의 아키텍처는 아직 초기 단계지만, 그 가능성은 이미 많은 연구진과 업계 전문가들에게 주목받고 있다.

Related Links