2달 전

LLM 개선의 예술: 질문, 정제, 그리고 신뢰

Kumar Shridhar; Koustuv Sinha; Andrew Cohen; Tianlu Wang; Ping Yu; Ram Pasunuru; Mrinmaya Sachan; Jason Weston; Asli Celikyilmaz
LLM 개선의 예술: 질문, 정제, 그리고 신뢰
초록

최근 몇 년간, 대형 언어 모델(LLM)들은 뛰어난 생성 능력을 보여주었지만, 이들이 자신의 생성 결과의 품질을 판단할 수 있을까요? '자기 개선(self-refinement)'이라는 인기 있는 개념은 LLM이 오류를 감지하고 수정하도록 요청받으면 이를 수행할 수 있다는 주장을 담고 있습니다. 그러나 최근 경험적 증거는 이와 반대 방향을 가리키며, 추론이 필요한 경우 LLM이 종종 오류를 정확히 식별하는 데 어려움을 겪음을 시사합니다. 이를 해결하기 위해, 우리는 ART: 질문(Ask), 개선(Refine), 신뢰(Trust)라는 추론과 개선 목표를 제안합니다. 이는 LLM이 출력을 언제 개선해야 하는지를 결정하기 위해 필요한 질문을 하도록 하고, 개선 결과와 초기 예측을 순위화하여 그 개선에 대한 신뢰를 확인하거나 거두는 방법입니다. 수학적 단어 문제(GSM8K)와 질문 응답(StrategyQA)의 두 가지 다단계 추론 과제에서 ART는 자기 개선 기준모델보다 +5점의 성능 향상을 이룩하였으며, 결정을 내리는 데 사용되는 모델의 크기가 훨씬 작습니다. 또한 우리는 더 작은 모델을 사용하여 개선 결정을 내리는 것이 큰 모델을 미세 조정(fine-tuning)하는 것보다 비용 효율적인 대안임을 입증하였습니다.

LLM 개선의 예술: 질문, 정제, 그리고 신뢰 | 최신 연구 논문 | HyperAI초신경