Kernellösung ohne Spannendarstellungen

Die Einführung vortrainierter Sprachmodelle hat viele komplexe, auf spezifische Aufgaben zugeschnittene NLP-Modelle auf einfache, leichtgewichtige Schichten reduziert. Eine Ausnahme von diesem Trend ist die Coreferenzauflösung, bei der ein anspruchsvolles, auf die Aufgabe zugeschnittenes Modell an einen vortrainierten Transformer-Encoder angehängt wird. Obwohl dieses Modell äußerst wirksam ist, weist es einen sehr großen Speicherbedarf auf – vor allem aufgrund dynamisch erstellter Span- und Span-Paar-Repräsentationen –, was die Verarbeitung kompletter Dokumente sowie die gleichzeitige Training auf mehreren Instanzen in einem Batch erschwert. Wir stellen ein leichtgewichtiges, end-to-end-Modell für die Coreferenzauflösung vor, das auf Span-Repräsentationen, handgefertigte Merkmale und Heuristiken verzichtet. Unser Modell erreicht eine Wettbewerbsfähigkeit mit dem derzeitigen Standardmodell, ist jedoch einfacher und effizienter.