Command Palette
Search for a command to run...
Weniger Features erzielen gute Ergebnisse bei der Aufgabe der Identifikation der Muttersprache
Weniger Features erzielen gute Ergebnisse bei der Aufgabe der Identifikation der Muttersprache
\cCa\ugr\i \cC\oltekin Taraka Rama
Zusammenfassung
Diese Arbeit beschreibt unsere Ergebnisse beim NLI-Shared-Task 2017. Wir nahmen an den Aufgaben „Essays“, „Speech“ und „Fusion“ teil, wobei jeweils Text, Sprache und i-Vektoren zur Identifikation der Muttersprache einer gegebenen Eingabe genutzt wurden. Bei der Essay-Aufgabe erzielte ein lineares SVM-System, das auf Wort-Bigrammen und Zeichen-7-Grammen basierte, die besten Ergebnisse. In der Speech-Aufgabe übertraf ein LDA-Klassifikator, der ausschließlich auf i-Vektoren basierte, ein Kombinationssystem, das Textmerkmale aus Sprachtranskriptionen sowie i-Vektoren integrierte. Bei der Fusion-Aufgabe untersuchten wir Systeme, die eine Kombination aus i-Vektoren und höheren n-Gramm-Features, eine Kombination aus i-Vektoren und Wort-Unigrammen, ein Mittelwert-Wahrscheinlichkeits-Ensemble sowie ein gestapeltes Ensemblesystem verwendeten. Unsere Ergebnisse zeigen, dass die Kombination von Wort-Unigrammen mit i-Vektoren höhere Scores erzielt als Systeme, die mit einer größeren Anzahl von n-Gramm-Features trainiert wurden. Unsere besten Systeme erreichten F1-Scores von 87,16 %, 83,33 % und 91,75 % in der Essay-, Speech- und Fusion-Aufgabe jeweils.