HyperAIHyperAI
vor 2 Monaten

CoType: Gemeinsame Extraktion von typisierten Entitäten und Relationen mit Wissensbasen

Xiang Ren; Zeqiu Wu; Wenqi He; Meng Qu; Clare R. Voss; Heng Ji; Tarek F. Abdelzaher; Jiawei Han
CoType: Gemeinsame Extraktion von typisierten Entitäten und Relationen mit Wissensbasen
Abstract

Die Extraktion von Entitäten und Beziehungen für interessante Typen aus Texten ist wichtig für das Verständnis großer Textkorpusse. Traditionell haben Systeme zur Extraktion von Entitätsbeziehungen auf menschlich annotierte Korpora zur Ausbildung angewiesen und ein inkrementelles Pipeline-Verfahren verfolgt. Solche Systeme erfordern zusätzliche menschliche Expertise, um in ein neues Domänenfeld übertragen zu werden, und sind anfällig für Fehler, die sich entlang des Pipelines fortsetzen. In dieser Arbeit untersuchen wir die gemeinsame Extraktion typisierter Entitäten und Beziehungen mit heuristisch aus Wissensbasen gewonnenen etikettierten Daten (d.h., distante Überwachung). Da unser Algorithmus zur Typisierung durch distante Überwachung kontextunabhängig ist, stellen verrauschte Trainingsdaten besondere Herausforderungen für diese Aufgabe dar. Wir schlagen einen neuen domänenunabhängigen Rahmen vor, der CoType genannt wird. Dieser führt einen datengesteuerten Textsegmentierungsalgorithmus durch, um Entitätserwähnungen zu extrahieren, und kodiert Entitätserwähnungen, Beziehungserwähnungen, Textmerkmale und Typlabel gemeinsam in zwei niedrigdimensionale Räume (für Entitätserwähnungen und Beziehungserwähnungen jeweils), in denen Objekte mit ähnlichen Typen auch ähnliche Darstellungen haben werden. CoType nutzt dann diese gelernten Kodierungen, um die Typen von Test- (unkoppelbaren) Erwähnungen zu schätzen. Wir formulieren ein gemeinsames Optimierungsproblem, um Kodierungen aus Textkorpusse und Wissensbasen zu lernen, wobei wir eine neuartige partielle Etiketten-Funktionsverlustfunktion für verrauschte etikettierte Daten verwenden und eine Objekt-„Übersetzung“-Funktion einführen, um die gegenseitigen Querverbindungen zwischen Entitäten und Beziehungen zu erfassen. Experimente mit drei öffentlichen Datensätzen zeigen die Effektivität von CoType in verschiedenen Domänenfeldern (z.B. Nachrichten, Biomedizin), wobei im Vergleich zum nächstbesten Verfahren durchschnittlich eine Verbesserung des F1-Scores um 25 % erreicht wird.请注意,"partielle Etiketten-Funktionsverlustfunktion" 是一个直接翻译的术语,如果在德语学术文献中有更通用的表述,请根据实际情况调整。同样,“Objekt-„Übersetzung“-Funktion” 也是直接翻译,可能需要进一步的专业校对。