Command Palette

Search for a command to run...

추측 – 생각 – 답

날짜

11일 전

기관

비보(Vivo Mobile Communications Co., Ltd.)

논문 URL

2509.12108

Guess–Think–Answer(GTA)는 vivo AI Lab 알고리즘 팀에서 2025년 9월에 제안했으며 관련 연구 결과는 논문 "GTA: 대규모 언어 모델을 사용한 텍스트 분류를 위한 지도 학습 강화 학습".

GTA 프레임워크는 먼저 모델이 초기 추측(교차 엔트로피 손실을 통해 최적화됨)을 생성한 다음, 이 추측을 반영하여 최종 답을 생성하는 방식으로 작동합니다. 동시에 강화 학습(RL) 보상을 사용하여 최종 출력과 전체 GTA 구조의 형식을 형성합니다. 이 프레임워크를 통해 모델은 강화 학습을 통해 효과적인 추론 패턴을 자발적으로 학습할 수 있으므로 추론 체인에 대한 수동 주석이 필요 없으며, 통합된 학습 패러다임 내에서 지도 학습 미세 조정(SFT)의 효율성과 강화 학습의 향상된 기능을 결합합니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
추측 – 생각 – 답 | 백과사전 | HyperAI초신경