Command Palette

Search for a command to run...

한 달 전

절단 도박에서 승리하기: 효율적인 감독하에의 미세조정을 위한 샘플 및 토큰 동시 절단을 위한 통합적 접근

절단 도박에서 승리하기: 효율적인 감독하에의 미세조정을 위한 샘플 및 토큰 동시 절단을 위한 통합적 접근

초록

감독 하에의 미세조정(Supervised Fine-Tuning, SFT)은 가벼운 사후 훈련 단계에서부터 중간 훈련 수준에 육박하는 계산 집약적인 단계로 진화함에 따라, 제한된 예산 속에서 대규모 언어 모델(Large Language Models, LLMs)의 일치화를 위해 데이터 효율성이 핵심적으로 중요해지고 있다. 기존의 데이터 프리닝(Pruning) 기법은 설계 면에서 분절적인 특징을 지닌다. 즉, 샘플 수준 또는 토큰 수준에서 별도로 작동하며, 두 차원을 동시에 최적화하지 못한다. 이러한 단절은 상당한 비효율을 초래한다. 고가치 샘플 내에도 여전히 중복된 토큰이 포함될 수 있으며, 토큰 수준의 프리닝은 개별 예제 내에 내재된 중요한 지시나 수정 신호를 무시하고 버리는 경우가 많다. 이러한 한계를 극복하기 위해, 본 연구에서는 샘플과 토큰 수준에서 훈련 데이터의 이질적인 유용성을 동시에 특성화할 수 있는 진단 프레임워크인 오차-불확실성(Error-Uncertainty, EU) 평면을 제안한다. 이 통찰을 바탕으로, 샘플 프리닝과 토큰 프리닝을 전략적으로 조율하는 통합적 프레임워크인 사분면 기반 조정(Quadrant-based Tuning, Q-Tuning)을 제안한다. Q-Tuning은 두 단계 전략을 채택한다. 첫째, 정보성 있는 오해나 보정 신호가 풍부한 예제를 유지하기 위해 샘플 수준의 선별 작업을 수행한다. 둘째, 비대칭적 토큰 프리닝 정책을 적용하여, 오해가 포함된 샘플에서는 덜 중요한 토큰만을 맥락 인식 스코어링 메커니즘을 활용해 제거하고, 보정 샘플은 완전히 보존한다. 제안한 방법은 다섯 가지 다양한 벤치마크에서 새로운 최고 성능을 기록하였다. 특히 SmolLM2-1.7B 모델에서, 원래 훈련 데이터의 단 12.5%만을 사용함에도 불구하고, 전체 데이터 SFT 기준 대비 평균적으로 +38%의 성능 향상을 달성하였다. Q-Tuning은 처음으로 일관되게 전체 데이터 훈련을 능가하는 동적 프리닝 접근법으로, 예산 제약 하에서 LLM의 SFT 과정에서 데이터 활용도를 극대화할 수 있는 실용적이고 확장 가능한 모범 사례를 제시한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
절단 도박에서 승리하기: 효율적인 감독하에의 미세조정을 위한 샘플 및 토큰 동시 절단을 위한 통합적 접근 | 연구 논문 | HyperAI초신경