CalBERT – Code-mixed Adaptive Language Representations mittels BERT

Eine code-mixed Sprache ist eine Sprachform, die die Kombination von zwei oder mehr Sprachvarianten in ihrer Schrift oder Aussprache beinhaltet. Die Analyse von Code-Text ist schwierig, da die verwendete Sprache nicht konsistent ist und mit bestehenden monolingualen Ansätzen nicht effektiv verarbeitet werden kann. Wir stellen einen neuartigen Ansatz vor, um die Leistung von Transformers zu verbessern, indem wir einen zusätzlichen Schritt namens „Siamese Pre-Training“ einführen. Dieser ermöglicht es vortrainierten, monolingualen Transformers, ihre Sprachrepräsentationen an Code-mixed-Sprachen mit nur wenigen Beispielen von Code-mixed-Daten anzupassen. Die vorgeschlagenen Architekturen erreichen auf dem Sentiment Analysis for Indian Languages (SAIL)-Datensatz einen F1-Score, der den bisherigen Stand der Technik übertrifft, wobei die höchstmögliche Verbesserung 5,1 Punkte beträgt. Zudem erzielen sie auf dem IndicGLUE-Produktbewertungs-Datensatz die derzeit beste Genauigkeit und schlagen die Benchmark um 0,4 Punkte.