HyperAIHyperAI
vor 2 Monaten

Die Nutzung monolingualer Daten für crosslinguale kompositionale Wortsdarstellungen

Hubert Soyer; Pontus Stenetorp; Akiko Aizawa
Die Nutzung monolingualer Daten für crosslinguale kompositionale Wortsdarstellungen
Abstract

In dieser Arbeit präsentieren wir eine neuartige neuronale Netzwerkarchitektur zur Generierung kompositioneller wortbasierter Repräsentationen über Sprachgrenzen hinweg. Im Gegensatz zu bisher vorgeschlagenen Methoden erfüllt unsere Methode die folgenden drei Kriterien: Sie beschränkt die wortbasierten Repräsentationen auf kompositionelle Strukturen, sie kann sowohl bilingual als auch monolingual verfügbare Daten nutzen und sie ist skalierbar für große Wortschatze und große Datenmengen. Ein wesentlicher Bestandteil unseres Ansatzes ist das, was wir als monolinguales Inklusionskriterium bezeichnen. Dieses Kriterium nutzt die Beobachtung, dass Phrasen semantisch enger mit ihren Unterphrasen verbunden sind als mit zufällig ausgewählten anderen Phrasen. Wir evaluieren unsere Methode anhand einer etablierten Aufgabe der crosslingualen Dokumentenklassifikation und erreichen Ergebnisse, die entweder vergleichbar oder deutlich besser sind als die bisherigen Stand der Technik. Konkret erreicht unsere Methode eine Genauigkeit von 92,7 % und 84,4 % für die Teil-Aufgaben Englisch zu Deutsch und Deutsch zu Englisch. Das erstere verbessert den aktuellen Stand der Technik um 0,9 Prozentpunkte, letzteres stellt eine absolute Verbesserung des bisherigen Standes der Technik dar um 7,7 Prozentpunkte und eine Fehlerreduzierung von 33,0 %.

Die Nutzung monolingualer Daten für crosslinguale kompositionale Wortsdarstellungen | Neueste Forschungsarbeiten | HyperAI