Command Palette

Search for a command to run...

2달 전

작은 언어 모델에서 창의적 글쓰기 자극하기: LLM-as-a-Judge와 다중 에이전트 개선 보상 비교

Xiaolong Wei Bo Lu Xingyu Zhang Zhejun Zhao Dongdong Shen Long Xia Dawei Yin

작은 언어 모델에서 창의적 글쓰기 자극하기: LLM-as-a-Judge와 다중 에이전트 개선 보상 비교

초록

대규모 언어 모델(LLM)은 놀라운 창의적 글쓰기 능력을 보여주었으나, 그 거대한 계산 자원 요구로 인해 광범위한 활용이 어려운 실정이다. 반면 소규모 언어 모델(SLM)의 성능 향상은 유망한 대안이 될 수 있으나, 현재의 방법 중 하나인 감독적 미세조정(SFT)은 창의성 측면에서 한계가 있으며, 인간 피드백을 통한 강화학습(RLHF)은 비용이 매우 높은 문제가 있다. 본 논문은 창의적 글쓰기 능력을 촉진하기 위해 70억 파라미터 규모의 SLM에 적용 가능한, 인공지능 기반 보상 전략 두 가지를 강화학습을 통한 인공지능 피드백(RLAIF) 프레임워크 내에서 탐구한다. 특히 중국어 인사말 생성을 대상으로 한다. 첫 번째 전략은 창의적 작업에 특화된 새로운 다중 에이전트 거부 샘플링 프레임워크를 통해 수집된 고품질 선호 데이터로 훈련된 평가 모델(RM)을 활용한다. 두 번째 전략은 더 혁신적인 접근으로, 원칙 기반의 LLM-기반 심사자(Principle-guided LLM-as-a-Judge)를 도입하며, 이는 반대적 학습 기법과 반성 메커니즘을 통한 최적화를 통해 보상 함수를 설계하여 직접 보상 신호를 제공한다. 종합적인 실험 결과, 두 전략 모두 기준 모델 대비 창의적 출력을 크게 향상시키는 것으로 나타났으나, 원칙 기반 LLM-기반 심사자 전략이 더 뛰어난 생성 품질을 보였다. 또한 이 전략은 훈련 효율성 측면에서 뚜렷한 장점과 함께 인간 주석 데이터에 대한 의존도를 크게 감소시켜, 창의적 SLM 개발을 위한 더 확장 가능하고 효과적인 길을 제시한다. 또한 본 연구에서 제안한 자동 평가 방법은 인간의 판단과 높은 일치도를 보였다. 본 연구의 코드와 데이터는 공개된 URL을 통해 누구나 접근 가능하다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
작은 언어 모델에서 창의적 글쓰기 자극하기: LLM-as-a-Judge와 다중 에이전트 개선 보상 비교 | 연구 논문 | HyperAI초신경