Command Palette
Search for a command to run...
Zhichao Wang Dongyang Ma Xinting Huang Deng Cai Tian Lan Jiahao Xu Haitao Mi Xiaoying Tang Yan Wang

초록
LLM에 붙은 '종단 간(end-to-end)'이라는 라벨은 오해를 불러일으키는 표현이다. 실질적으로 이러한 모델들은 온도(temperature)나 top-p와 같은 하이퍼파라미터를 수작업으로 정교하게 조정해야 하는 비미분 가능(decomposable)한 디코딩 과정에 의존한다. 본 논문은 자가 디코딩 전략을 학습할 수 있는 새로운 아키텍처인 AutoDeco를 제안한다. 이는 진정한 의미의 '종단 간' 생성을 가능하게 한다. AutoDeco는 표준 트랜스포머에 가벼운 추가 블록(headd)을 도입하여, 각 단계에서 다음 토큰의 로짓(logit)과 함께, 맥락에 따라 동적으로 온도와 top-p 값을 예측한다. 이 방식은 디코딩을 파라미터 기반의 토큰 수준의 과정으로 전환함으로써, 단일 순전파(foward pass) 내에서 모델이 자가 조절(self-regulate)하는 샘플링 전략을 구현할 수 있게 한다.8개의 벤치마크에서 실시한 광범위한 실험을 통해, AutoDeco가 기본 디코딩 전략을 크게 능가함을 입증했으며, '테스트 세트를 조작하는 방식(hacking the test set)'으로 얻은 오라클(oracle) 최적화 기준에 비해 경쟁 가능한 성능을 달성함을 보였다. 이는 정적 방법에 대한 실용적인 상한선(upper bound)이 된다. 특히 중요한 점은, 지시 기반 디코딩 제어에 대한 잠재적 능력이 부상함을 밝혀냈다. 모델은 자연어 명령어(예: "낮은 난이도로 생성해")를 해석하여, 토큰 단위로 온도와 top-p 값을 조정하는 능력을 학습한다. 이는 조정 가능하고 상호작용 가능한 LLM 디코딩의 새로운 패러다임을 여는 계기를 마련한다.