HyperAI초신경

LooGLE 장문맥 이해 능력 벤치마크 데이터 세트

날짜

일 년 전

크기

80.66 MB

기관

발행 주소

huggingface.co

카테고리

特色图像

이 데이터 세트는 베이징 일반 인공지능 연구소(GIAI)와 베이징대학교 인공지능 연구소 팀이 대규모 언어 모델(LLM)의 장기 맥락 이해 능력을 테스트하고 평가하기 위해 제안한 벤치마크 데이터 세트인 LooGLE입니다.

LooGLE은 가장 인기 있는 장문 LLM 9개를 평가하여 이러한 모델이 복잡한 장기 종속 작업에서 다중 정보 검색, 시간 재정렬, 계산, 이해 및 추론 기능 측면에서 낙관적이지 않다는 것을 발견했습니다. 상용 모델(Claude3-200k, GPT4-32k, GPT4-8k, GPT3.5-turbo-6k, LlamaIndex)의 평균 정확도는 40%에 불과하고, 오픈 소스 모델(ChatGLM2-6B, LongLLaMa-3B, RWKV-4-14B-pile, LLaMA-7B-32K)의 평균 정확도는 10%에 불과합니다.

논문 "LooGLE: 긴 문맥 언어 모델이 긴 문맥을 이해할 수 있을까?" ACL2024에 승인되었습니다. 본 논문의 공동 저자는 중국 통신연구소의 리자치(Li Jiaqi)와 왕멍멍(Wang Mengmeng)이고, 교신 저자는 중국 통신연구소의 연구원인 정즈룽(Zheng Zilong)과 베이징대학의 조교수인 장무한(Zhang Muhan)입니다.

LooGLE은 매우 긴 텍스트를 제공하고, 비교적 최근의 문서를 사용하고, 신중하게 설계되고 주석이 달린 진정한 장기 종속성 작업을 제공함으로써 기존 데이터 세트의 단점을 해결합니다. LooGLE 벤치마크 데이터 세트의 출시는 장문 LLM을 평가하고 개선하기 위한 새로운 도구를 제공할 뿐만 아니라, 인공 지능 언어 처리 기술 개발에 대한 새로운 방향을 제시합니다.

LooGLE.torrent
시딩 1다운로드 중 1완료됨 91총 다운로드 횟수 134
  • LooGLE/
    • README.md
      2.01 KB
    • README.txt
      4.02 KB
      • data/
        • LooGLE.zip
          80.66 MB