HyperAI초신경

FewJoint Few-shot 조인트 학습 벤치마크 데이터 세트

날짜

일 년 전

크기

751.82 KB

기관

발행 주소

mp.weixin.qq.com

FewJoint 벤치마크 데이터 세트는 iFlytek AIUI 오픈 플랫폼의 실제 사용자 코퍼스와 전문가가 구축한 코퍼스를 모아 만든 것입니다(비율은 약 3:7). 여기에는 실제 도메인이 59개 포함되어 있으며 현재 가장 많은 도메인을 보유한 대화 데이터 세트 중 하나입니다. 이 데이터 세트는 시뮬레이션된 도메인을 구성하는 것을 피하고 소규모 샘플과 메타 학습 방법에 매우 적합합니다.

연구팀은 이 데이터 세트를 기반으로 SMP 2020 소규모 샘플 대화 언어 이해 평가도 실시했습니다. 연구팀은 단순하고 인위적으로 구성된 텍스트 분류 과제를 사용한 기존의 NLP 소규모 표본 연구와는 달리, 59개의 실제 도메인을 포괄하는 대화 언어 이해 과제를 도입했습니다. SLU 과제는 간단한 텍스트 분류 외에도 시퀀스 레이블링과 다중 과제 공동 학습도 포함합니다.이러한 더욱 진보적이고 현실적인 작업을 통해 FewJoint는 기존의 간단한 텍스트 분류 작업보다 실제 NLP 작업의 어려움과 복잡성을 더 잘 반영할 수 있습니다.

FewJoint 벤치마크 데이터 세트에는 다음과 같은 주요 기능이 있습니다.

  • 여기에는 실제 도메인이 59개 포함되어 있으며 가장 많은 도메인을 보유한 대화 데이터 세트 중 하나입니다. 이 방법은 시뮬레이션된 도메인을 구성할 필요가 없으며 소규모 샘플과 메타 학습 방법을 평가하는 데 매우 적합합니다.
  • 이는 실제 NLP 작업의 어려움을 반영하며, 현재의 소수의 NLP가 텍스트 분류와 같은 간단한 인공적 작업만 수행할 수 있다는 한계를 깨뜨립니다.
  • 완전히 개방되어 있으며 사용하기 쉬운 NLP Few-shot Learning 벤치마크를 제공합니다.
  • 실험을 용이하게 하고 빠르게 수행할 수 있는 NLP 퓨샷 학습 도구 플랫폼인 MetaDialog를 제공합니다.

데이터셋 구축

연구팀은 iFlytek AIUI 오픈 플랫폼에서 실제 대화형 로봇 API 59개를 연구 분야로 선정했습니다. 사용자 코퍼스의 소스는 주로 두 부분으로 구성됩니다.

(1) 플랫폼 실제 사용자의 데이터

(2) 도메인 전문가가 구축한 코퍼스

두 데이터 소스의 데이터 비율은 약 3:7입니다. 연구팀은 각 데이터에 사용자 의도와 의미 슬롯을 주석으로 단 후, 59개 도메인을 모두 세 부분으로 나누었습니다. 45개는 훈련 도메인, 5개는 개발 도메인, 9개는 테스트 도메인입니다. 테스트 및 개발 도메인 데이터를 몇 가지 샷 학습 형태로 재구성합니다. 각 도메인에는 인공적으로 구성된 K-샷 지원 세트와 나머지 데이터로 구성된 쿼리 세트가 포함됩니다.

FewJoint.torrent
시딩 1다운로드 중 1완료됨 162총 다운로드 횟수 405
  • FewJoint/
    • README.md
      3.45 KB
    • README.txt
      6.9 KB
      • data/
        • FewJoint.zip
          751.82 KB