Command Palette

Search for a command to run...

21일 전

테스트 시 Compute-최적 스케일링을 최적화 가능한 그래프로 일반화하기

Fali Wang Jihai Chen Shuhua Yang Runxue Bao Tianxiang Zhao Zhiwei Zhang Xianfeng Tang Hui Liu Qi He Suhang Wang

테스트 시 Compute-최적 스케일링을 최적화 가능한 그래프로 일반화하기

초록

테스트 시 스케일링(Test-Time Scaling, TTS)은 추론 시 추가 계산을 할당함으로써 대규모 언어 모델(Large Language Models, LLMs)의 성능을 향상시키는 기법으로, 주로 병렬, 순차 또는 하이브리드 방식의 스케일링을 통해 구현된다. 그러나 기존 연구들은 일반적으로 고정된 협업 아키텍처(예: 네트워크 구조)와 단일 모델 사용을 전제로 하여, 최적의 아키텍처 및 모델 조합이 작업에 따라 달라질 수 있다는 점을 간과하고 있다. 따라서 본 연구는 고정된 계산 예산 내에서 TTS 환경에서 계산 최적화를 달성하는 모델 조합과 아키텍처를 탐색하는 새로운 문제를 탐구한다. 이 문제를 다중 LLM 협업 그래프로 수식화하였으며, 노드는 모델의 역할과 LLM 할당을 표현하고, 간선은 정보 흐름을 나타낸다. 이 문제는 (i) 조합적 탐색 공간이 지나치게 커서 탐색이 불가능할 정도이며, (ii) 작업에 따라 특화된 설계가 요구된다는 점에서 도전적이다. 이러한 문제를 해결하기 위해, 본 연구는 문제를 확률적 그래프 최적화로 재정의하고, 사전 실험을 통해 TTS 협업 그래프에 대한 세 가지 경험적 통찰을 도출한다. 이러한 통찰을 기반으로, 샘플링-기울기-업데이트를 샘플링-피드백-업데이트로 변환하는 REINFORCE 알고리즘의 흐름을 모방하는, LLM 에이전트를 보강한 프레임워크인 Agent-REINFORCE를 제안한다. 여기서 피드백은 텍스트 기반의 기울기 역할을 하여 확률적 그래프를 업데이트하고, 효율적으로 최적의 다중 LLM 협업 그래프를 탐색할 수 있다. 실험 결과, Agent-REINFORCE는 전통적 및 LLM 기반의 기준 모델 대비 샘플 효율성과 탐색 성능에서 뛰어난 성능을 보였으며, 정확도와 추론 지연 시간이라는 복수의 목표를 동시에 충족하는 최적의 그래프를 효과적으로 식별하는 데 성공했다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
테스트 시 Compute-최적 스케일링을 최적화 가능한 그래프로 일반화하기 | 연구 논문 | HyperAI초신경