야생 환경에서의 텍스트 분류: 대규모 장미 꼬리 이름 정규화 데이터셋

실세계 데이터는 일반적으로 긴 꼬리 분포(long-tailed distribution)를 나타내며, 몇 개의 빈도가 높은 라벨과 많은 수의 샘플이 적은 라벨(few-shot labels)을 포함합니다. 기관 이름 정규화 연구는 이러한 현상을 보여주는 완벽한 적용 사례입니다. 전 세계에는 공개된 문헌에서 기관 이름의 변형이 엄청나게 다양하게 나타나는 많은 기관들이 있습니다. 본 연구에서는 먼저 자연스럽게 긴 꼬리 분포를 가진 25,000개 이상의 클래스를 포함하는 대규모 기관 이름 정규화 데이터셋 LoT-insts1을 수집하였습니다. 많은 샘플(many-shot) 클래스와 소수 샘플(few-shot) 및 제로 샘플(zero-shot) 학습 시나리오를 분리하기 위해, 우리는 여러 가지 샘플 수에 따라 네 가지 다른 하위 집합으로부터 테스트 세트를 구성하였습니다: 많은 샘플(many-shot), 중간 샘플(medium-shot), 소수 샘플(few-shot) 세트, 그리고 제로 샘플 오픈 세트(zero-shot open set)입니다.또한, 우리의 데이터에서 여러 중요한 베이스라인 방법들을 재현하여, 검색 기반 방법부터事前학습(pretrained)된 BERT 모델을 사용하는 신경망 방법까지 다양한 범위를 다루었습니다. 더 나아가, 우리는 소수 샘플과 제로 샘플 테스트 세트에서 더 우수한 분포 외 일반화(out-of-distribution generalization) 성능을 보이는 특별히 사전 학습된 BERT 기반 모델을 제안하였습니다. 다른 긴 꼬리 현상에 초점을 맞춘 데이터셋들과 비교할 때, 우리의 데이터셋은 가장 큰 기존의 긴 꼬리 데이터셋보다 한 자릿수 이상 더 많은 학습 데이터를 가지고 있으며, 인위적으로 합성된 것이 아니라 자연스럽게 긴 꼬리를 형성하고 있습니다. 우리는 이 데이터셋이 이 문제를 연구하는 데 있어 중요한 차별화된 시나리오를 제공한다고 믿습니다. 최선의 지식에 따르면,这是我们首次提出一个专注于长尾和开放集分类问题的自然语言数据集。为了保持翻译的一致性和准确性,最后一句应该调整为:최선의 지식에 따르면,这是我们首次提出一个专注于长尾和开放集分类问题的自然语言数据集。 (According to our best knowledge, this is the first natural language dataset that focuses on long-tailed and open-set classification problems.)最终版本如下:실세계 데이터는 일반적으로 긴 꼬리 분포(long-tailed distribution)를 나타내며, 몇 개의 빈도가 높은 라벨과 많은 수의 샘플이 적은 라벨(few-shot labels)을 포함합니다. 기관 이름 정규화 연구는 이러한 현상을 보여주는 완벽한 적용 사례입니다. 전 세계에는 공개된 문헌에서 기관 이름의 변형이 엄청나게 다양하게 나타나는 많은 기관들이 있습니다. 본 연구에서는 먼저 자연스럽게 긴 꼬리 분포를 가진 25,000개 이상의 클래스를 포함하는 대규모 기관 이름 정규화 데이터셋 LoT-insts1을 수집하였습니다. 많은 샘플(many-shot) 클래스와 소수 샘플(few-shot) 및 제로 샘플(zero-shot) 학습 시나리오를 분리하기 위해, 우리는 여러 가지 샘플 수에 따라 네 가지 다른 하위 집합으로부터 테스트 세트를 구성하였습니다: 많은 샘플(many-shot), 중간 샘플(medium-shot), 소수 샘플(few-shot) 세트, 그리고 제로 샘플 오픈 세트(zero-shot open set)입니다.또한, 우리의 데이터에서 여러 중요한 베이스라인 방법들을 재현하여, 검색 기반 방법부터 사전 학습(pretrained)된 BERT 모델을 사용하는 신경망 방법까지 다양한 범위를 다루었습니다. 더 나아가, 우리는 소수 샘플과 제로 샘플 테스트 세트에서 더 우수한 분포 외 일반화(out-of-distribution generalization) 성능을 보이는 특별히 사전 학습된 BERT 기반 모델을 제안하였습니다. 다른 긴 꼬리 현상에 초점을 맞춘 데이터셋들과 비교할 때, 우리의 데이터셋은 가장 큰 기존의 긴 꼬리 데이터셋보다 한 자릿수 이상 더 많은 학습 데이터를 가지고 있으며, 인위적으로 합성된 것이 아니라 자연스럽게 긴 꼬리를 형성하고 있습니다. 최선의 지식에 따르면,这是我们首次提出一个专注于长尾和开放集分类问题的自然语言数据集。 (According to our best knowledge, this is the first natural language dataset that focuses on long-tailed and open-set classification problems.)