Discord에서 논의하기

9달 전

Shiwen Ni Guhong Chen Shuaimin Li Xuanang Chen Siyi Li Bingli Wang Qiyao Wang Xingjian Wang Yifan Zhang Liyang Fan

초록

최근 들어 대규모 언어 모델의 능력이 깊이와 폭에서 급속히 발전함에 따라, 이를 평가하기 위한 다양한 기준(벤치마크)이 점차 증가하고 있다. 모델 성능을 정량적으로 평가하는 도구로서 벤치마크는 모델의 능력을 측정하는 핵심 수단에 그치지 않고, 모델 개발 방향을 제시하고 기술 혁신을 촉진하는 데 핵심적인 역할을 한다. 본 연구에서는 대규모 언어 모델 벤치마크의 현황과 발전 동향을 처음으로 체계적으로 검토하며, 대표적인 283개의 벤치마크를 세 가지 유형으로 분류한다. 첫째, 일반적 능력 벤치마크는 핵심 언어학, 지식, 추론 등 다양한 측면을 포함한다. 둘째, 도메인 특화 벤치마크는 자연과학, 인문사회과학, 공학 기술 등 특정 분야에 집중한다. 셋째, 목적 특화 벤치마크는 리스크, 신뢰성, 에이전트 등 특정 목적을 중심으로 평가한다. 또한 현재 벤치마크들이 데이터 오염으로 인한 점수 과대평가, 문화적·언어적 편향으로 인한 평가의 불공정성, 과정 신뢰성 및 동적 환경에 대한 평가 부족 등의 문제를 안고 있음을 지적하고, 향후 벤치마크 혁신을 위한 참고가 될 수 있는 설계 패러다임을 제시한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

9달 전

Shiwen Ni Guhong Chen Shuaimin Li Xuanang Chen Siyi Li Bingli Wang Qiyao Wang Xingjian Wang Yifan Zhang Liyang Fan

초록

최근 들어 대규모 언어 모델의 능력이 깊이와 폭에서 급속히 발전함에 따라, 이를 평가하기 위한 다양한 기준(벤치마크)이 점차 증가하고 있다. 모델 성능을 정량적으로 평가하는 도구로서 벤치마크는 모델의 능력을 측정하는 핵심 수단에 그치지 않고, 모델 개발 방향을 제시하고 기술 혁신을 촉진하는 데 핵심적인 역할을 한다. 본 연구에서는 대규모 언어 모델 벤치마크의 현황과 발전 동향을 처음으로 체계적으로 검토하며, 대표적인 283개의 벤치마크를 세 가지 유형으로 분류한다. 첫째, 일반적 능력 벤치마크는 핵심 언어학, 지식, 추론 등 다양한 측면을 포함한다. 둘째, 도메인 특화 벤치마크는 자연과학, 인문사회과학, 공학 기술 등 특정 분야에 집중한다. 셋째, 목적 특화 벤치마크는 리스크, 신뢰성, 에이전트 등 특정 목적을 중심으로 평가한다. 또한 현재 벤치마크들이 데이터 오염으로 인한 점수 과대평가, 문화적·언어적 편향으로 인한 평가의 불공정성, 과정 신뢰성 및 동적 환경에 대한 평가 부족 등의 문제를 안고 있음을 지적하고, 향후 벤치마크 혁신을 위한 참고가 될 수 있는 설계 패러다임을 제시한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

대규모 언어 모델 평가지표에 관한 종합적 조사 | 문서 | HyperAI초신경