Ensemble ALBERT auf SQuAD 2.0

Maschinelles Fragenbeantworten ist eine zentrale, jedoch herausfordernde Aufgabe im Bereich der natürlichen Sprachverarbeitung. In letzter Zeit haben vortrainierte kontextuelle Embeddings (Pre-trained Contextual Embeddings, PCE), wie beispielsweise Bidirectional Encoder Representations from Transformers (BERT) und A Lite BERT (ALBERT), aufgrund ihrer herausragenden Leistung in einer Vielzahl von NLP-Aufgaben erhebliche Aufmerksamkeit erlangt. In unserer Arbeit haben wir feingetunte ALBERT-Modelle verwendet und verschiedene zusätzliche Schichten (z. B. Aufmerksamkeitslayer, RNN-Schichten) darüber implementiert, um die Modellleistung auf dem Stanford Question Answering Dataset (SQuAD 2.0) zu verbessern. Wir haben vier verschiedene Modelle mit unterschiedlichen Schichten auf Basis des ALBERT-base-Modells entwickelt sowie zwei weitere Modelle auf Basis von ALBERT-xlarge und ALBERT-xxlarge. Ihre Leistung wurde detailliert mit unserem Baseline-Modell ALBERT-base-v2 + ALBERT-SQuAD-out verglichen. Das bestperformende Einzelmodell ist ALBERT-xxlarge + ALBERT-SQuAD-out, das auf dem Dev-Set einen F1-Score von 88,435 erzielte. Darüber hinaus haben wir drei verschiedene Ensembles-Verfahren implementiert, um die Gesamtleistung weiter zu steigern. Durch die Einbindung der Ergebnisse mehrerer hochperformanter Modelle in unseren gewichteten Voting-Ensemble-Algorithmus erreichen wir schließlich die erste Platzierung auf dem Stanford CS224N Test PCE SQuAD Leaderboard mit einem F1-Score von 90,123.