2달 전

KnowCoder: 구조화된 지식을 LLMs에 코딩하여 보편적인 정보 추출 실현

Zixuan Li; Yutao Zeng; Yuxin Zuo; Weicheng Ren; Wenxuan Liu; Miao Su; Yucan Guo; Yantao Liu; Xiang Li; Zhilei Hu; Long Bai; Wei Li; Yidan Liu; Pan Yang; Xiaolong Jin; Jiafeng Guo; Xueqi Cheng
KnowCoder: 구조화된 지식을 LLMs에 코딩하여 보편적인 정보 추출 실현
초록

본 논문에서는 코드 생성을 통해 보편적 정보 추출(Universal Information Extraction, UIE)을 수행하는 대형 언어 모델(Large Language Model, LLM)인 KnowCoder를 제안합니다. KnowCoder는 LLM이 쉽게 이해할 수 있는 통합 스키마 표현과 스키마를 따르고 구조화된 지식을 정확하게 추출하도록 유도하는 효과적인 학습 프레임워크 개발을 목표로 합니다. 이를 위해 KnowCoder는 다양한 스키마를 Python 클래스로 일관되게 변환할 수 있는 코드 스타일의 스키마 표현 방법을 도입하여, UIE에서 작업 간의 제약 조건 등 복잡한 스키마 정보를 LLM 친화적인 방식으로 포착합니다. 또한, 우리는 30,000여 종류의 지식을 포함하는 가장 큰 코드 스타일의 스키마 라이브러리를 구성하였으며, 이는 현재까지 알려진 UIE 관련 라이브러리 중 가장 크다고 할 수 있습니다.LLM의 학습 과정을 용이하게 하기 위해, KnowCoder는 코드 사전학습과 명령 조정을 통해 스키마 이해 능력과 스키마 준수 능력을 강화하는 두 단계 학습 프레임워크를 포함하고 있습니다. 약 15억 개의 자동 생성 데이터에 대한 코드 사전학습 후, KnowCoder는 이미 뛰어난 일반화 능력을 갖추었으며, 소량 샘플(few-shot) 환경에서 LLaMA2와 비교하여 F1 점수가 49.8% 향상되었습니다. 명령 조정 이후에는 새로운 스키마에서도 강한 일반화 능력을 보여주며, 제로 샷(zero-shot) 환경에서는 최신 기술(sota) 베이스라인과 비교하여 최대 12.5% 향상되고, 저자원(low resource) 환경에서는 최대 21.9% 향상되었습니다.또한 우리의 통합된 스키마 표현 기반으로 여러 인간 주석 데이터셋을 동시에 활용하여 KnowCoder를 세부적으로 개선할 수 있으며, 감독 학습(supervised setting) 환경에서는 최대 7.5%의 상당한 성능 향상을 달성하였습니다.

KnowCoder: 구조화된 지식을 LLMs에 코딩하여 보편적인 정보 추출 실현 | 최신 연구 논문 | HyperAI초신경