11일 전

계층적 프롬프트 분류 체계: 대규모 언어 모델을 위한 통합 평가 프레임워크

Devichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha
계층적 프롬프트 분류 체계: 대규모 언어 모델을 위한 통합 평가 프레임워크
초록

대규모 언어 모델(Large Language Models, LLMs)이 다양한 작업을 해결하는 데 있어 효과적인지 평가하는 것은 그들의 강점과 약점을 이해하는 데 필수적이다. 기존의 평가 기법은 일반적으로 데이터셋 전반에 걸쳐 단일한 프롬프트 전략을 동일하게 적용하며, 작업의 복잡도 차이를 고려하지 않는다. 본 연구에서는 단순한 전략에서부터 가장 복잡한 전략까지 총 다섯 가지 고유한 프롬프트 전략으로 구성된 계층적 프롬프트 프레임워크(Hierarchical Prompt Framework, HPF)를 활용하는 계층적 프롬프트 분류체계(Hierarchical Prompting Taxonomy, HPT)를 제안한다. 이는 LLM의 성능을 더 정밀하게 평가하고, 다양한 작업 해결 능력에 대한 명확한 시각을 제공한다. 본 분류체계는 데이터셋과 LLM에 대해 각각 계층적 프롬프트 점수(Hierarchical Prompting Score, HP-Score)를 부여하며, 이는 다양한 작업 해결 능력에 대한 미묘한 이해를 가능하게 하며, 작업의 복잡도에 대한 보편적인 측정 기준을 제시한다. 또한 각 작업에 적합한 프롬프트 전략을 자동으로 선택하는 적응형 계층적 프롬프트 프레임워크(Adaptive Hierarchical Prompt framework)를 도입하였다. 본 연구는 Llama 3 8B, Phi 3 3.8B, Mistral 7B, Gemma 7B 등 네 가지 지시어 튜닝된 LLM을 대상으로 BoolQ, CommonSenseQA(CSQA), IWSLT-2017 en-fr(IWSLT), SamSum 네 가지 데이터셋에서 수동적 및 적응형 계층적 프롬프트 프레임워크를 비교하였다. 실험 결과는 HPT의 효과성을 입증하며, 다양한 작업과 LLM의 능력을 신뢰할 수 있는 방식으로 비교할 수 있는 길을 열어준다. 본 논문은 데이터셋의 복잡도와 LLM의 능력을 평가할 수 있는 보편적인 평가 지표 개발로 이어진다. 수동적 HPF와 적응형 HPF의 구현 코드는 모두 공개되어 있다.

계층적 프롬프트 분류 체계: 대규모 언어 모델을 위한 통합 평가 프레임워크 | 최신 연구 논문 | HyperAI초신경