TextBox 2.0: 사전 훈련된 언어 모델을 사용한 텍스트 생성 라이브러리

텍스트 생성 연구를 지원하기 위해, 본 논문에서는事前学습言어モデル(PLMs)의 사용에 중점을 둔 포괄적이고 통합된 라이브러리, TextBox 2.0을 소개합니다. 포괄성을 위해, 우리의 라이브러리는 13개의 일반적인 텍스트 생성 작업과 해당하는 83개의 데이터셋을 포함하며, 일반, 번역, 중국어, 대화, 제어 가능, 압축, 프롬프팅, 경량 PLMs를 포함한 45개의 PLMs를 지원합니다. 또한 우리는 효율적인 학습 전략 4가지를 구현하고 새로운 PLMs를 처음부터 사전 학습하기 위한 생성 목표 4가지를 제공합니다. 통합성을 위해, 전체 연구 파이프라인(데이터 로딩부터 학습 및 평가까지)을 지원하는 인터페이스를 설계하여 각 단계가 통합된 방식으로 이루어질 수 있도록 하였습니다. 다양한 기능에도 불구하고, 우리의 라이브러리는 친화적인 Python API나 명령줄을 통해 쉽게 사용할 수 있습니다. 우리 라이브러리의 유효성을 검증하기 위해 광범위한 실험을 수행하였으며 네 가지 유형의 연구 시나리오를 예시로 제시하였습니다. 이 프로젝트는 다음 링크에서 공개되었습니다: https://github.com/RUCAIBox/TextBox.注:在翻译中,"事前学習言語モデル(PLMs)" 应该是 "사전 학습 언어 모델(PLMs)"。这是由于 "事前学習" 和 "言語" 是日语词汇,而正确的韩语词汇应该是 "사전 학습" 和 "언어"。以下是修正后的版本:텍스트 생성 연구를 지원하기 위해, 본 논문에서는 사전 학습 언어 모델(PLMs)의 사용에 중점을 둔 포괄적이고 통합된 라이브러리, TextBox 2.0을 소개합니다. 포괄성을 위해, 우리의 라이브러리는 13개의 일반적인 텍스트 생성 작업과 해당하는 83개의 데이터셋을 포함하며, 일반, 번역, 중국어, 대화, 제어 가능, 압축, 프롬프팅, 경량 PLMs를 포함한 45개의 PLMs를 지원합니다. 또한 우리는 효율적인 학습 전략 4가지를 구현하고 새로운 PLMs를 처음부터 사전 학습하기 위한 생성 목표 4가지를 제공합니다. 통합성을 위해, 전체 연구 파이프라인(데이터 로딩부터 학습 및 평가까지)을 지원하는 인터페이스를 설계하여 각 단계가 통합된 방식으로 이루어질 수 있도록 하였습니다. 다양한 기능에도 불구하고, 우리의 라이브러리는 친화적인 Python API나 명령줄을 통해 쉽게 사용할 수 있습니다. 우리 라이브러리의 유효성을 검증하기 위해 광범위한 실험을 수행하였으며 네 가지 유형의 연구 시나리오를 예시로 제시하였습니다. 이 프로젝트는 다음 링크에서 공개되었습니다: https://github.com/RUCAIBox/TextBox.