Command Palette
Search for a command to run...
Daniela Gottesman Alon Gilae-Dotan Ido Cohen Yoav Gur-Arieh Marius Mosbach Ori Yoran Mor Geva

초록
언어 모델(LMs)은 세계에 대한 지식이 필요한 실제 응용 분야에서 점점 더 중심적인 역할을 하고 있다. 그러나 모델이 데이터를 어떻게 처리하여 세계에 대한 지식과 믿음의 표현으로 전환하는지에 대한 내부 과정은 여전히 잘 이해되지 않고 있다. 이러한 과정에 대한 통찰은 보다 일관성 있고 강건하며 완전한 지식 표현을 갖춘 언어 모델 개발로 이어질 수 있다. 이러한 질문들을 연구할 수 있도록 지원하기 위해, 사전 훈련 과정에서 언어 모델의 지식 획득을 분석하기 위한 도구 세트인 LMEnt를 제안한다. LMEnt는 다음과 같은 세 가지 요소를 포함한다: (1) 위키백과를 기반으로 한 엔티티 언급이 완전히 주석화된 지식 풍부한 사전 훈련 코퍼스, (2) 사전 훈련 데이터를 기반으로 한 엔티티 기반 검색 방법으로, 기존 접근 방식 대비 최대 80.4%까지 성능 향상을 달성하였으며, (3) 최대 1B 파라미터 및 4K 개의 중간 체크포인트를 갖춘 12개의 사전 훈련된 모델로, 지식 기반 평가에서 주요 오픈소스 모델들과 유사한 성능을 보였다. 이러한 자원들은 사전 훈련 중 엔티티 언급과 하류 작업 성능 간의 관계를 분석하고, 사전 훈련 데이터 내 인과적 개입의 영향을 연구할 수 있는 통제된 환경을 제공한다. 우리는 체크포인트 간 지식 획득을 분석함으로써 LMEnt의 유용성을 입증하였으며, 그 결과 사실의 빈도가 중요한 요소임을 확인하였으나, 학습 경향을 완전히 설명하지는 못함을 밝혔다. LMEnt는 지식 표현, 적응성(plasticity), 편집, 원인 추정(attribution), 학습 역학 등 언어 모델 내 지식에 관한 연구를 지원하기 위해 공개한다.