HyperAI초신경

대규모 멀티태스크 언어 이해(MMLU)

대규모 멀티태스크 언어 이해(MMLU)는 포괄적인 평가입니다.본 연구는 제로샷 및 퓨샷 설정에서 모델을 평가하여 텍스트 모델의 멀티태스크 정확도를 측정하는 것을 목표로 합니다. 관련 논문 및 결과대규모 멀티태스킹 언어 이해 측정"는 2021년에 제안되어 ICLR 2021에 게재되었습니다.

MMLU는 OpenAI GPT-4, Mistral 7b, Google Gemini, Anthropic Claude 2 등 다양한 언어 모델을 테스트하고 비교할 수 있는 방법을 제공합니다. 기본 수학부터 미국 역사, 컴퓨터 과학, 법률까지 57개 과제를 다루며, 모델이 광범위한 지식 기반과 문제 해결 능력을 입증해야 합니다.

MMLU 벤치마크의 주요 세부 사항

  • 훈련 및 검증 세트: 데이터 세트에는 15,908개의 질문이 포함되어 있으며, 몇 가지 샷 개발 세트, 검증 세트, 테스트 세트로 구분되어 있습니다. 퓨어샷 개발 세트에는 주제당 5개의 질문이 있고, 검증 세트는 하이퍼파라미터를 선택하는 데 사용할 수 있으며 1540개의 질문으로 구성되고, 테스트 세트에는 14,079개의 질문이 있습니다.
  • 모델 성능: MMLU의 예비 결과에 따르면, 작은 LLM이 정확도(25% 정확도) 측면에서 무작위 수준에서 우수한 성능을 보이는 반면, 더 큰 GPT-3(1,750억 개의 매개변수)는 43.9%의 소수 샷 정확도와 37.7%의 제로 샷 정확도로 더 나은 성능을 보였습니다. 2023년까지 GPT-4는 86.4%의 5발 정확도를 달성했고, Google Gemini는 83.7%의 5발 정확도를 달성했습니다. 그러나 가장 뛰어난 모델조차도 인간 전문가 수준의 정확도(89.8%)에 도달하기 전까지는 상당한 개선이 필요합니다.
  • 도전적인 과목: 모델, 특히 대규모 언어 모델(LLM)은 계산 집약적 작업(물리학, 수학 등)과 인문학 주제(윤리학, 법 등)에서는 성과가 좋지 않습니다.

MMLU 벤치마크의 주요 기능

MMLU 벤치마크는 STEM, 인문학, 사회 과학 등 다양한 분야에서 언어 모델의 성능을 측정합니다. MMLU 벤치마크의 주요 기능은 다음과 같습니다.

  • 57개 과목: 이 벤치마크는 기본 수학부터 법률, 윤리 등의 분야에서 고급 전문가 수준까지 광범위한 분야에서 57개 과목을 포괄합니다.
  • 세분성과 폭: MMLU는 세계적 지식과 문제 해결 능력을 테스트하므로 다양한 주제에 대한 모델의 이해도를 파악하는 데 이상적입니다.
  • 멀티태스킹 정확도: 이 테스트는 다양한 범위의 작업을 포괄하여 모델의 다중 작업 정확도를 측정하며, 모델의 학문적, 전문적 지식에 대한 포괄적인 평가를 보장합니다.
  • 대용량 트레이닝 세트가 필요 없습니다: 다른 벤치마크와 달리 MMLU는 대규모의 학습 세트를 필요로 하지 않습니다. 그 대신, 이 모델은 방대하고 다양한 텍스트 세트를 읽어서 필요한 지식을 이미 습득했다고 가정하는데, 이 과정을 사전 학습이라고 부릅니다.

이러한 주요 특징 덕분에 MMLU 벤치마크는 언어 모델의 성능과 다양한 맥락에서 언어를 이해하고 생성하는 능력을 평가하는 데 귀중한 도구가 됩니다.

MMLU의 작동 방식

MMLU 벤치마크는 다양한 작업에서 언어 모델의 성능을 평가하여 작동합니다. 이는 기계 번역, 텍스트 요약, 감정 분석을 포함한 다양한 맥락에서 언어를 이해하고 생성하는 모델의 능력을 측정합니다.

최종 MMLU 점수는 각 작업에서 얻은 점수의 평균으로, 모델의 전반적인 성능을 포괄적으로 측정한 것입니다.

MMLU 장점

MMLU 벤치마크에는 많은 이점이 있는데, 그 중 가장 중요한 세 가지는 다음과 같습니다.

  1. 이는 다양한 언어 모델의 성능을 비교하는 정량적 방법을 제공합니다.
  2. 계산적으로 효율적이며 이해하기 쉽습니다.
  3. 이 모델은 다양한 맥락에서 언어를 이해하고 생성하는 능력을 고려하며 언어 구조의 특정 측면을 포착할 수 있습니다.

MMLU의 한계

MMLU 벤치마크에는 최적이 아닌 벤치마크가 되는 몇 가지 문제점이 있습니다.

  1. 질문에 핵심 맥락이 없습니다.: MMLU 벤치마크의 일부 질문에는 맥락이 부족하여 올바르게 답하기 어렵거나 불가능하며, 이러한 질문은 복사-붙여넣기 오류로 인해 발생했을 수 있습니다.
  2. 답변 세트 모호성: 이 벤치마크에는 모호한 답변 세트가 포함된 질문이 포함되어 있어 혼란을 야기하고 모델 성능을 잘못 평가할 수 있습니다.
  3. 틀린 답변 세트: MMLU 벤치마크의 일부 질문에는 잘못된 답변 세트가 포함되어 있어 잘못된 평가 결과가 나올 수 있습니다.
  4. 신호에 대한 민감성: MMLU는 사용되는 정확한 신호에 극도로 민감하기 때문에 신호에 따라 성능이 크게 달라질 수 있습니다.

참고문헌

【1】https://klu.ai/glossary/mmlu-eval