HyperAIHyperAI
vor 2 Monaten

KnowCoder: Strukturiertes Wissen in LLMs kodieren für die universelle Informationsextraktion

Zixuan Li; Yutao Zeng; Yuxin Zuo; Weicheng Ren; Wenxuan Liu; Miao Su; Yucan Guo; Yantao Liu; Xiang Li; Zhilei Hu; Long Bai; Wei Li; Yidan Liu; Pan Yang; Xiaolong Jin; Jiafeng Guo; Xueqi Cheng
KnowCoder: Strukturiertes Wissen in LLMs kodieren für die universelle Informationsextraktion
Abstract

In dieser Arbeit schlagen wir KnowCoder vor, ein großes Sprachmodell (LLM), das universelle Informationsextraktion (UIE) durch Codegenerierung durchführt. KnowCoder strebt an, eine einheitliche Schemarepräsentation zu entwickeln, die von LLMs leicht verstanden werden kann, sowie ein effektives Lernframework, das LLMs dazu ermutigt, Schemas zu befolgen und strukturiertes Wissen präzise zu extrahieren. Um dies zu erreichen, führt KnowCoder eine codebasierte Schemarepräsentationsmethode ein, die verschiedene Schemas in Python-Klassen umwandelt. Auf diese Weise können komplexe Schemainformationen, wie etwa Einschränkungen zwischen den Aufgaben in der UIE, auf eine für LLMs freundliche Art und Weise erfasst werden. Wir erstellen zudem eine codebasierte Schemabibliothek, die über 30.000 Wissensarten abdeckt und laut unserem Wissen die größte für UIE ist. Um den Lernprozess der LLMs zu erleichtern, enthält KnowCoder einen zweistufigen Lernrahmen, der seine Fähigkeit zur Schemaverarbeitung durch Codevortrainung und seine Fähigkeit zur Schemafolge durch Anweisungstuning verbessert. Nach der Codevortrainung auf rund 1,5 Milliarden automatisch generierten Daten hat KnowCoder bereits bemerkenswerte Generalisierungsfähigkeiten erlangt und erreicht unter dem Few-Shot-Einstellung eine relative Verbesserung des F1-Scores von 49,8% im Vergleich zu LLaMA2. Nach dem Anweisungstuning zeigt KnowCoder außerdem starke Generalisierungsfähigkeiten bei unbekannten Schemas und erreicht bis zu 12,5% und 21,9% relative Verbesserungen im Vergleich zu den besten Baselines unter den Zero-Shot- und Low-Resource-Einstellungen jeweils. Zudem können verschiedene menschlich annotierte Datensätze auf Grundlage unserer einheitlichen Schemarepräsentationen gleichzeitig verwendet werden, um KnowCoder weiter zu optimieren. Dies führt unter der überwachten Einstellung zu signifikanten Verbesserungen von bis zu 7,5%.

KnowCoder: Strukturiertes Wissen in LLMs kodieren für die universelle Informationsextraktion | Neueste Forschungsarbeiten | HyperAI