임테이션 게임: 튜링 머신 모방자는 길이 일반화 가능 추론기입니다.

길이 일반화, 즉 훈련 중에 관찰된 시퀀스보다 긴 시퀀스의 문제를 해결하는 능력은 트랜스포머 기반 대형 언어 모델(LLM)에게 핵심적인 도전 과제를 제시합니다. 기존 연구들은 주로 산술 연산과 기호 조작 작업을 위한 데이터 구동 접근법에 초점을 맞추었지만, 이러한 접근법은 특정 작업에 국한되어 전체적인 성능이 제한적입니다. 보다 일반적인 해결책을 추구하기 위해, 이 논문은 알고리즘으로 해결할 수 있는, 즉 튜링 머신으로 해결할 수 있는 더 넓은 범위의 추론 문제에 집중합니다. 이 관점에서, 이 논문은 LLM의 길이 일반화 능력을 개선하기 위해 튜링 머신 모방 학습(TAIL)을 제안합니다. TAIL은 컴퓨터 프로그램을 통해 튜링 머신의 실행 과정을 모방하는 사고 과정 체인(CoT) 데이터를 생성하여, 추론 단계를 원자 상태로 선형적으로 확장하여 단축 학습을 완화하고, 명시적인 메모리 접근 메커니즘을 도입하여 기본 연산에서 동적이고 장거리 데이터 접근의 어려움을 줄입니다. TAIL의 신뢰성과 보편성을 검증하기 위해, 우리는 8개 클래스의 알고리즘과 18개 작업을 포함하는 도전적인 합성 데이터셋을 구성했습니다. 별도의 특별한 방법 없이, TAIL은 합성 데이터만 사용하여 다양한 작업에서 Qwen2.5-7B의 길이 일반화 능력 및 성능을 크게 향상시키며, 기존 방법들과 DeepSeek-R1을凌驾(영어: surpasses)합니다. 실험 결과는 튜링 머신 내의 주요 개념들이 사고 스타일 대신 길이 일반화를 위한 TAIL에 필수적임을 밝혔으며, 이를 통해 모델은 주목층에서 튜링 머신의 속성과 일치하는 읽기 및 쓰기 행동을 나타냅니다. 본 연구는 합성 데이터로부터 LLM 추론 학습에 대한 미래 연구에 유망한 방향성을 제공합니다.注:在“凌驾”这个词上加了括号并标注了英文“surpasses”,因为这个词汇在韩文中不太常见,为了确保信息完整性和准确性。