HyperAIHyperAI
vor 2 Monaten

Textklassifizierung im Wild: Ein großes, langschwänziges Datenset für den Namennormalisierungsprozess

Jiexing Qi; Shuhao Li; Zhixin Guo; Yusheng Huang; Chenghu Zhou; Weinan Zhang; Xinbing Wang; Zhouhan Lin
Textklassifizierung im Wild: Ein großes, langschwänziges Datenset für den Namennormalisierungsprozess
Abstract

Reale Daten zeigen in der Regel eine langschwänzige Verteilung (long-tailed distribution), mit wenigen häufigen Klassen und vielen Klassen, die nur selten vorkommen. Die Studie zur Normalisierung von Institutsnamen ist ein perfektes Anwendungsbeispiel für dieses Phänomen. Es gibt weltweit viele Institute, deren Namen in öffentlich zugänglichen Publikationen enorm variieren. In dieser Arbeit sammeln wir zunächst einen umfangreichen Datensatz zur Normalisierung von Institutsnamen, den LoT-insts1, der über 25.000 Klassen enthält, die eine natürliche langschwänzige Verteilung aufweisen. Um die Few-Shot- und Zero-Shot-Lernszenarien von den zahlreichen Many-Shot-Klassen zu trennen, konstruieren wir unseren Testdatensatz aus vier verschiedenen Teilmengen: Many-Shot-, Medium-Shot- und Few-Shot-Mengen sowie einer Zero-Shot-Offenen Menge. Wir replizieren zudem mehrere wichtige Baseline-Methoden auf unseren Daten, wobei wir einen breiten Spektrum abdecken, das von suchbasierten Methoden bis hin zu neuronalen Netzwerken reicht, die das vortrainierte BERT-Modell verwenden. Darüber hinaus schlagen wir unser speziell vortrainiertes BERT-basiertes Modell vor, das eine bessere Generalisierung außerhalb der Verteilung (out-of-distribution) in Few-Shot- und Zero-Shot-Testmengen zeigt. Verglichen mit anderen Datensätzen, die sich auf das langschwänzige Phänomen konzentrieren, enthält unser Datensatz um ein Vielfaches mehr Trainingsdaten als der größte existierende langschwänzige Datensatz und ist natürlicher langschwänzig anstatt manuell synthetisiert. Wir glauben, dass er einen wichtigen und anderen Szenario bietet, um dieses Problem zu untersuchen. Nach unserem besten Wissen ist dies der erste Natürlichsprach-Datensatz, der sich auf langschwänzige und offene Klassifikationsprobleme konzentriert.

Textklassifizierung im Wild: Ein großes, langschwänziges Datenset für den Namennormalisierungsprozess | Neueste Forschungsarbeiten | HyperAI