Tha3aroon bei der NSURL-2019-Aufgabe 8: Semantische Frageähnlichkeit im Arabischen

In diesem Paper beschreiben wir die Bemühungen unseres Teams im Rahmen der semantischen Text-Frage-Ähnlichkeit-Aufgabe des NSURL 2019. Das bestperformende System nutzt mehrere innovative Techniken zur Datenverstärkung (Data Augmentation), um die Trainingsdatenmenge zu vergrößern. Anschließend werden die ELMo-vortrainierten kontextuellen Embeddings der Daten in ein ON-LSTM-Netzwerk mit Selbst-Attention (Self-Attention) eingespeist. Dies führt zu Sequenzrepräsentationsvektoren, die zur Vorhersage der Beziehung zwischen Fragepaaren verwendet werden. Das Modell erreicht auf dem öffentlichen Leaderboard den 1. Platz mit einem F1-Score von 96,499 (identisch zum F1-Score des zweiten Platzes) und auf dem privaten Leaderboard den 2. Platz mit einem F1-Score von 94,848 (unterscheidet sich um 1,076 vom F1-Score des ersten Platzes).