Messung der kompositionellen Generalisierung: Eine umfassende Methode auf realistischen Daten

Zustandsbestimmende maschinelle Lernmethoden zeigen eine begrenzte kompositionelle Generalisierungsfähigkeit. Gleichzeitig fehlen realistische Benchmark-Datensätze, die diese Fähigkeit umfassend messen, was die Suche nach und Bewertung von Verbesserungen erschwert. Wir stellen eine neuartige Methode vor, um solche Benchmarks systematisch zu konstruieren, indem die Verzweigung von Komposita maximiert wird, während gleichzeitig eine geringe Atomverzweigung zwischen Trainings- und Testdatensätzen garantiert wird. Wir vergleichen diese Methode quantitativ mit anderen Ansätzen zur Erstellung von Benchmarks für kompositionelle Generalisierung. Wir präsentieren einen großen und realistischen Datensatz für die natürliche Sprachverarbeitung, der gemäß dieser Methode erstellt wurde, und nutzen ihn, um die kompositionelle Generalisierungsfähigkeit dreier maschineller Lernarchitekturen zu analysieren. Wir stellen fest, dass diese Architekturen nicht in der Lage sind, kompositionell zu generalisieren, und dass eine überraschend starke negative Korrelation zwischen der Komposita-Verzweigung und der Genauigkeit besteht. Zudem zeigen wir, wie unsere Methode dazu genutzt werden kann, neue Benchmarks für Kompositionalität auf Basis des bestehenden SCAN-Datensatzes zu erstellen, was diese Ergebnisse bestätigt.