HyperAIHyperAI
vor 16 Tagen

CLUZH bei den Shared Tasks 2022 auf SIGMORPHON zu Morphemsegmentierung und Inflektionsgenerierung

{Peter Makarov, Simon Clematide, Silvan Wehrli}
CLUZH bei den Shared Tasks 2022 auf SIGMORPHON zu Morphemsegmentierung und Inflektionsgenerierung
Abstract

Diese Arbeit beschreibt die Beiträge des Teams der Abteilung für Computergestützte Sprachwissenschaft der Universität Zürich zu den SIGMORPHON 2022 Shared Tasks zu Morphemsegmentierung und Inflektionsgenerierung. Unsere Beiträge basieren auf einem neuronalen Transduktor auf Zeichenebene, der traditionelle Edit-Operationen nutzt. Obwohl dieses Modell sich als besonders gut geeignet für ressourcenschwache Szenarien erwiesen hat, war seine Anwendung bei großen Datensätzen bisher schwierig. Bestehende Implementierungen konnten die GPU-Beschleunigung nicht vollständig ausnutzen und realisierten keine effiziente Mini-Batch-Training, was für ein Übergangsbasiertes System besonders herausfordernd sein kann. Für die diesjährige Teilnahme haben wir den neuronalen Transduktor auf PyTorch portiert und ein echtes Mini-Batch-Training implementiert. Dadurch konnten wir den Ansatz erfolgreich auf große Datensätze skalieren und umfangreiche Experimente durchführen. Wir berichten über konkurrenzfähige Ergebnisse bei der Morphemsegmentierung (einschließlich gemeinsam erster Platz in Teil 2 der Herausforderung). Zudem zeigen wir, dass die Reduktion der Satzebene Morphemsegmentierung auf ein Wortebenen-Problem eine einfache, aber effektive Strategie darstellt. Darüber hinaus erzielen wir starke Ergebnisse bei der Inflektionsgenerierung (bestes Gesamtergebnis bei großen Trainingsdatensätzen in Teil 1, beste Ergebnisse bei ressourcenschwachen Lernpfaden in Teil 2). Unser Code ist öffentlich verfügbar.