2달 전
대형 언어 모델을 사용한 본체론 없는 일반 도메인 지식 그래프-텍스트 생성 데이터셋 합성
Daehee Kim; Deokhyung Kang; Sangwon Ryu; Gary Geunbae Lee

초록
지식 그래프-텍스트 (G2T) 생성은 구조화된 지식 그래프를 자연어 텍스트로 변환하는 과정을 포함합니다. 최근 사전 학습 언어 모델 (PLM)의 발전으로 G2T 성능이 향상되었지만, 이들의 효과성은 정확한 그래프-텍스트 일치성을 가진 데이터셋에 의존합니다. 그러나 고품질의 일반 영역 G2T 생성 데이터셋이 부족하여 일반 영역 G2T 생성 연구의 진전이 제약받고 있습니다. 이 문제를 해결하기 위해, 우리는 대규모 LLM과 Data-QuestEval을 활용한 새로운 방법으로 생성된 위키백과 온톨로지 자유 그래프-텍스트 데이터셋 (WikiOFGraph)을 소개합니다. 이 새로운 데이터셋은 585만 개의 일반 영역 그래프-텍스트 쌍을 포함하며, 외부 온톨로지를 사용하지 않고도 높은 그래프-텍스트 일관성을 제공합니다. 실험 결과는 WikiOFGraph에서 미세 조정된 PLM이 다양한 평가 지표에서 다른 데이터셋으로 학습된 모델보다 우수함을 입증하였습니다. 우리의 방법은 고품질 G2T 데이터 생성에 있어 확장 가능하고 효과적인 해결책임을 증명하며, G2T 생성 분야에 크게 기여하고 있습니다.