Command Palette
Search for a command to run...
BERT-basierte multilinguale Maschinelles Verstehen in Englisch und Hindi
BERT-basierte multilinguale Maschinelles Verstehen in Englisch und Hindi
Somil Gupta Nilesh Khade
Zusammenfassung
Die mehrsprachige Maschinenverstehen (MMC) ist eine Unterabgabe des Fragen-Antwortens (QA), die das Zitieren der Antwort auf eine Frage aus einem gegebenen Textausschnitt umfasst, wobei Frage und Ausschnitt in unterschiedlichen Sprachen vorliegen können. Die kürzlich veröffentlichte mehrsprachige Variante von BERT (m-BERT), die mit 104 Sprachen vortrainiert wurde, hat sich sowohl in den zero-shot- als auch in den feinjustierten Einstellungen für mehrsprachige Aufgaben gut bewährt; jedoch wurde sie bisher noch nicht für das Englisch-Hindi-MMC eingesetzt. In diesem Artikel präsentieren wir daher unsere Experimente mit m-BERT für MMC in zero-shot-, einheitlich-sprachigen (z.B. Hindi-Frage-Hindi-Ausschnitt) und über-sprachlichen (z.B. Englische Frage-Hindi-Ausschnitt) Feinjustierungsszenarien. Diese Modellvarianten werden in allen möglichen mehrsprachigen Einstellungen evaluiert und die Ergebnisse werden mit dem aktuellen Stand der Technik im sequentiellen QA-System für diese Sprachen verglichen. Die Experimente zeigen, dass m-BERT durch Feinjustierung die Leistung in allen Evaluationsrichtungen bei beiden Datensätzen des vorherigen Modells verbessert, wodurch das m-BERT-basierte MMC zum neuen Stand der Technik für Englisch und Hindi wird. Wir veröffentlichen auch unsere Ergebnisse auf einer erweiterten Version des kürzlich veröffentlichten XQuAD-Datensatzes, den wir als Bewertungsmaßstab für zukünftige Forschung vorschlagen.