HyperAIHyperAI
vor 2 Monaten

UCPhrase: Unüberwachte, kontextbezogene Qualitäts-Phrasen-Kennzeichnung

Xiaotao Gu; Zihan Wang; Zhenyu Bi; Yu Meng; Liyuan Liu; Jiawei Han; Jingbo Shang
UCPhrase: Unüberwachte, kontextbezogene Qualitäts-Phrasen-Kennzeichnung
Abstract

Die Identifikation und das Verständnis von qualitativen Phrasen im Kontext ist eine grundlegende Aufgabe im Textmining. Die größte Herausforderung bei dieser Aufgabe liegt vermutlich in ungewöhnlichen, aufkommenden und domänenspezifischen Phrasen. Die seltene Natur dieser Phrasen beeinträchtigt erheblich die Leistung von Phrasenminierungsverfahren, die auf ausreichend vielen Vorkommen der Phrasen im Eingabekorpus basieren. Kontextsensible Tagging-Modelle sind zwar nicht durch die Häufigkeit eingeschränkt, hängen jedoch stark von Domänenexperten ab, sei es für umfangreiche satzweise annotierte Goldlabels oder manuell erstellte Glossare. In dieser Arbeit schlagen wir UCPhrase vor, ein neues unsupervises kontextsensitives Qualitätsphrasetagger. Insbesondere leiten wir hochwertige Phrase-Spannen als Silberlabels aus konsistent zusammen auftretenden Wortsequenzen innerhalb jedes Dokuments ab. Im Vergleich zu typischer kontextunabhängiger Distanzüberwachung basierend auf existierenden Wissensbasen (KBs) haben unsere Silberlabels den Vorteil, tief in der Eingabedomäne und dem Kontext verwurzelt zu sein, was sie einzigartig in der Erhaltung kontextueller Vollständigkeit und der Erfassung aufkommender, außerhalb der KB liegender Phrasen vorteilhaft macht. Das Training eines konventionellen neuronalen Taggers basierend auf Silberlabels birgt in der Regel das Risiko des Überanpassens an Phrasesurface-Namen. Stattdessen beobachten wir, dass die kontextualisierten Aufmerksamkeitskarten (Attention Maps), die von einem transformerbasierten neuronalen Sprachmodell generiert werden, die Verbindungen zwischen Wörtern effektiv in einer surface-unabhängigen Weise offenzulegen vermögen. Daher kombinieren wir solche Aufmerksamkeitskarten mit den Silberlabels, um ein leichtgewichtiges Span-Predictions-Modell zu trainieren, das auf neuen Eingaben angewendet werden kann, um (unbekannte) qualitative Phrasen unabhängig von ihren Oberflächenbezeichnungen oder ihrer Häufigkeit zu erkennen. Ausführliche Experimente zu verschiedenen Aufgaben und Datensätzen, einschließlich korpusweiter Phrase-Ranking, dokumentspezifischer Schlüsselwortextraktion und satzweiter Phrase-Taggung, zeigen die Überlegenheit unseres Designs gegenüber den besten pretraineden, unsuperviseden und distanzüberwachten Methoden.

UCPhrase: Unüberwachte, kontextbezogene Qualitäts-Phrasen-Kennzeichnung | Neueste Forschungsarbeiten | HyperAI