HyperAI초신경
Back to Headlines

AI 모델, 변화하는 정보 추적 위해 나무형 수학 사용

4일 전

MIT의 컴퓨터 과학 및 인공 지능 연구소(CSAIL)와 전기 공학 및 컴퓨터 과학 부서의 연구팀은 언어 모델이 어떻게 변화하는 상황을 추적하는지에 대한 새로운 연구 결과를 발표했습니다. 이 연구는 arXiv 서버에 게재되었으며, 언어 모델이 인간처럼 단계별로 상태 변화를 따라가는 대신 수학적인 단축 방식을 사용하여 최종 예측을 만드는 것을 보여줍니다. 연구팀은 이 실험을 위해 고전적인 집중력 게임과 유사한 방법을 사용했습니다. 예를 들어, 숫자 "42135"가 주어지고, 각 숫자를 이동시키는 지시사항이 제공되면, 모델은 이 지시사항을 바탕으로 최종 숫자 배열을 추측해야 합니다. 이 과정에서 연구팀은 두 가지 주요 패턴을 발견했습니다: "결합 알고리즘"과 "평등-결합 알고리즘". 결합 알고리즘은 가까운 단계들을 그룹화하고, 그룹을 통해 최종 예측을 계산합니다. 이 과정은 나무 구조와 유사합니다. 초기 숫자 배열이 "뿌리"이고, 나무 위로 올라갈수록 인접한 단계들이 다른 가지로 그룹화되어 곱해집니다. 나무의 가장 상단에서는 각 가지의 결과 시퀀스를 곱하여 최종 숫자 조합을 얻습니다. 평등-결합 알고리즘은 먼저 최종 배열이 짝수 또는 홀수 번의 숫자 재배치 결과인지 판단한 후, 그룹화를 진행합니다. 이 알고리즘도 결합 알고리즘과 마찬가지로 인접한 시퀀스를 다른 단계에서 그룹화하고 곱하지만, 초기 훈련 단계에서 휴리스틱(빠르게 합리적인 해결책을 도출하는 규칙)에 지나치게 의존하기 때문에 복잡한 지시사항을 처리하는 데 어려움을 겪습니다. MIT 박사과정 연구원이자 CSAIL 소속인 Belinda Li SM '23는 "변환기는 상태 변화를 단계별로 따르는 것이 아니라 계층적으로 조직하여 시뮬레이션을 수행한다"고 설명했습니다. 이 연구는 변환기가 자연스럽게 사용하는 접근 방식을 이해하고, 이를 바탕으로 더 나은 상태 추적을 위한 방법론을 개발해야 함을 제시합니다. Li는 또한 "테스트 시간 동안 계산을 깊이 차원으로 확장하는 연구가 진행되고 있다"며, "변환기의 층 수를 늘리는 것이 테스트 시간 동안 사슬 추론 토큰의 수를 늘리는 것보다 더 깊은 추론 트리를 구축할 수 있다"고 덧붙였습니다. 연구팀은 이 두 알고리즘의 작동 방식을 관찰하기 위해 "프로빙"과 "활성화 패칭"이라는 두 가지 도구를 사용했습니다. 프로빙은 AI 시스템 내부에서 어떤 정보가 흐르는지를 보여주는 방법으로, 실험 중간 단계에서 모델이 최종 숫자 배열에 대해 어떠한 예측을 하는지를 시각화합니다. 활성화 패칭은 모델의 일부 "생각"에 잘못된 정보를 주입하여 특정 부분의 예측 변화를 관찰하는 방법입니다. 이 도구들은 알고리즘이 언제 오류를 범하고, 언제 최종 순열을 정확히 추측하는지를 밝혀냈습니다. 결합 알고리즘이 평등-결합 알고리즘보다 더 빠르게 학습하고, 긴 시퀀스에서 더 좋은 성능을 보이는 것으로 나타났습니다. Li는 평등-결합 알고리즘의 낮은 성능이 초기 훈련 단계에서 휴리스틱에 지나치게 의존하기 때문이라고 분석했습니다. "언어 모델이 초기 훈련 단계에서 휴리스틱을 사용하면, 이러한 테크닉이 모델의 메커니즘에 통합되기 시작한다"고 Li는 말했습니다. "그러나 이러한 모델은 일반화 능력이 떨어지는 경향이 있다. 우리는 특정 사전 훈련 목표가 이러한 패턴을 억제하거나 장려할 수 있다는 점을 발견했다. 향후에는 모델이 '나쁜 습관'을 피하도록 설계하는 기술을 개발할 수 있을 것이다." 이 실험은 작은 규모의 언어 모델에서 진행되었지만, 모델 크기에 따른 영향은 거의 없었습니다. 이는 큰 규모의 언어 모델, 예를 들어 GPT 4.1 같은 모델에서도 비슷한 결과가 나올 가능성을 시사합니다. 연구팀은 다양한 크기의 언어 모델을 사용하여 실세계의 동적인 작업, 예를 들어 코드 추적이나 이야기의 발전을 따르는 데 있어 성능을 평가할 계획입니다. 하버드대학교의 Keyon Vafa 박사는 이 연구가 언어 모델의 성능 향상을 위한 새로운 전략을 제시한다고 평가했습니다. "대형 언어 모델의 많은 용도가 상태 추적에 의존한다. 요리법 제공, 코드 작성, 대화 중 세부 사항 추적 등 모든 것이 그렇다"고 그는 말했습니다. "이 논문은 언어 모델이 이러한 작업을 수행하는 방식을 이해하는 데 큰 진전을 이루었으며, 흥미로운 통찰력을 제공하고 개선 방법을 제시한다." 이 연구는 언어 모델의 내부 메커니즘을 이해하고, 이를 바탕으로 더 효율적이고 정확한 예측 능력을 갖춘 모델을 개발하는 데 중요한 단초를 제공합니다. 앞으로의 연구를 통해 이러한 발견이 실세계의 다양한 동적 작업에 적용될 수 있을 것으로 기대됩니다.

Related Links