Command Palette

Search for a command to run...

13일 전

GTA: 대규모 언어 모델을 활용한 텍스트 분류를 위한 감독 지도형 강화 학습

GTA: 대규모 언어 모델을 활용한 텍스트 분류를 위한 감독 지도형 강화 학습

초록

자연어 처리 과제에서 순수 강화학습(RL) 미세조정 방법은 탐색 효율성이 낮고 수렴 속도가 느린 문제가 있으며, 반면 감독 미세조정(SFT) 방법은 학습 효율성은 높지만 성능 한계가 제한적이며 RL에 비해 이론적 기반도 약하다. 효율성과 성능 간의 트레이드오프를 해결하기 위해, 본 연구에서는 SFT의 효율성과 RL의 성능 향상 능력을 통합된 학습 프레임워크 내에서 결합하는 '추측-사고-답변(Guess-Think-Answer, GTA)' 프레임워크를 제안한다. GTA는 모델이 먼저 교차 엔트로피 손실을 통해 최적화된 일시적인 추측을 생성한 후, 해당 추측을 되돌아보며 최종 답변을 생성하는 방식으로 작동한다. 이 과정에서 강화학습 보상은 최종 출력뿐만 아니라 전체 GTA 구조의 형식에도 영향을 미친다. 이러한 하이브리드 접근법은 순수 RL보다 빠른 수렴 속도와 순수 SFT보다 높은 성능 한계를 동시에 달성한다. 두 학습 신호 간의 기울기 충돌 문제를 완화하기 위해, 손실 마스킹과 기울기 제약 기법을 도입하였다. 네 가지 텍스트 분류 벤치마크에서의 실험 결과는 GTA가 순수 SFT 및 순수 RL 기준 모델보다 더 빠른 수렴을 이끌어내며, 상당한 성능 향상을 보임을 입증한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
GTA: 대규모 언어 모델을 활용한 텍스트 분류를 위한 감독 지도형 강화 학습 | 연구 논문 | HyperAI초신경