Command Palette

Search for a command to run...

7일 전

Think-at-Hard: 추론 기능 향상을 위한 선택적 잠재 반복 기법

Tianyu Fu Yichen You Zekai Chen Guohao Dai Huazhong Yang Yu Wang

Think-at-Hard: 추론 기능 향상을 위한 선택적 잠재 반복 기법

초록

대규모 언어 모델(LLM)의 추론 능력을 파라미터 제약 조건 하에서도 향상시키는 것은 실용적 응용에 있어 매우 중요하다. 기존 연구에서는 반복적 트랜스포머(Recurrent Transformers)를 제안하여, 각 토큰에 대해 고정된 수의 추가 반복을 할당함으로써 생성 품질을 향상시키는 방식을 사용한다. 일반적인 전방 계산을 한 후, 단어화(Verbalization) 대신 마지막 레이어의 은닉 상태를 다시 입력으로 활용하여 추가 반복을 수행함으로써 토큰 예측을 정교화한다. 그러나 본 연구에서는 잠재적인 과도한 사고(Overthinking) 현상을 발견하였다. 즉, 첫 번째 전방 계산 이후 이미 올바른 예측을 내린 쉬운 토큰들이 추가 반복 과정에서 오류로 수정되는 경우가 발생한다. 이를 해결하기 위해, 우리는 어려운 토큰에만 깊이 있는 반복을 수행하는 동적 잠재 사고 기법인 Think-at-Hard(TaH)를 제안한다. TaH는 표준 전방 계산 이후 예측이 잘못될 가능성이 높은 토큰에만 잠재 반복을 유도하기 위해 경량 신경 결정기( Lightweight Neural Decider)를 활용한다. 잠재 반복 과정에서는 저랭크 적응(LoRA) 모듈을 사용하여 LLM의 목적을 일반적인 다음 토큰 예측에서 어려운 토큰에 집중된 보완으로 전환한다. 또한, 토큰 시퀀스 차원 외에 추가적인 반복 깊이 차원으로 확장된 듀오-인과적 어텐션(Duo-Causal Attention) 메커니즘을 도입하여, 반복 간 정보 흐름을 가능하게 하면서도 전체 순차적 병렬성을 유지한다. 실험 결과, TaH는 다섯 가지 도전적인 벤치마크에서 LLM의 추론 성능을 향상시키며, 파라미터 수를 동일하게 유지함을 확인하였다. 모든 출력 토큰에 대해 두 번 반복하는 기존 벤치마크 대비, TaH는 94%의 토큰을 두 번째 반복에서 제외하면서도 정확도를 8.111.3% 향상시켰다. 동일한 데이터로 미세조정된 강력한 단일 반복 Qwen3 모델과 비교했을 때도 정확도를 4.05.0% 향상시켰으며, LoRA 및 반복 결정기에서 전체 파라미터의 3% 미만을 추가로 사용할 경우, 각각 정확도 향상률이 8.512.6% 및 5.35.4%로 더욱 증가하였다. 본 연구의 코드는 https://github.com/thu-nics/TaH 에 공개되어 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
Think-at-Hard: 추론 기능 향상을 위한 선택적 잠재 반복 기법 | 연구 논문 | HyperAI초신경