2ヶ月前
野生環境におけるテキスト分類:大規模な長尾分布名前正規化データセット
Jiexing Qi; Shuhao Li; Zhixin Guo; Yusheng Huang; Chenghu Zhou; Weinan Zhang; Xinbing Wang; Zhouhan Lin

要約
実世界のデータは通常、長尾分布を示し、頻繁に現れるラベルが少数で、少ない回数しか現れないラベルが多く存在します。機関名正規化の研究は、この現象を示す典型的な応用例です。全世界には、公開文献中にその名称が多様に表記される多くの機関があります。本研究では、まず大規模な機関名正規化データセット LoT-insts1 を収集しました。このデータセットには、自然な長尾分布を示す2万5千以上のクラスが含まれています。多数の多ショットクラスから少ショットおよびゼロショット学習シナリオを分離するために、我々はテストセットを4つの異なるサブセットから構築しました:多ショットセット、中ショットセット、少ショットセット、およびゼロショットオープンセットです。また、我々は自データ上でいくつかの重要なベースライン手法を再現し、検索ベースの手法から事前学習されたBERTモデルを使用するニューラルネットワーク手法まで幅広くカバーしています。さらに、我々は特に事前学習されたBERTベースのモデルを提案し、これが少ショットとゼロショットテストセットでの外れ値分布に対するより良い汎化性能を示すことを確認しました。他の長尾分布に焦点を当てたデータセットと比較して、当社のデータセットは最大の既存の長尾分布データセットよりも1桁多い訓練データを持ち、人工的に合成されたものではなく自然な長尾分布となっています。我々はこのデータセットがこの問題を研究する上で重要かつ異なるシナリオを提供すると考えています。最善の知識に基づき、これは長尾分布とオープンセット分類問題に焦点を当てた最初の自然言語データセットであると考えられます。