HyperAIHyperAI
vor 16 Tagen

Weniger Features erzielen gute Ergebnisse bei der Aufgabe der Identifikation der Muttersprache

{{\c{C}}a{\u{g}}r{\i} {\c{C}}{\o}ltekin, Taraka Rama}
Weniger Features erzielen gute Ergebnisse bei der Aufgabe der Identifikation der Muttersprache
Abstract

Diese Arbeit beschreibt unsere Ergebnisse beim NLI-Shared-Task 2017. Wir nahmen an den Aufgaben „Essays“, „Speech“ und „Fusion“ teil, wobei jeweils Text, Sprache und i-Vektoren zur Identifikation der Muttersprache einer gegebenen Eingabe genutzt wurden. Bei der Essay-Aufgabe erzielte ein lineares SVM-System, das auf Wort-Bigrammen und Zeichen-7-Grammen basierte, die besten Ergebnisse. In der Speech-Aufgabe übertraf ein LDA-Klassifikator, der ausschließlich auf i-Vektoren basierte, ein Kombinationssystem, das Textmerkmale aus Sprachtranskriptionen sowie i-Vektoren integrierte. Bei der Fusion-Aufgabe untersuchten wir Systeme, die eine Kombination aus i-Vektoren und höheren n-Gramm-Features, eine Kombination aus i-Vektoren und Wort-Unigrammen, ein Mittelwert-Wahrscheinlichkeits-Ensemble sowie ein gestapeltes Ensemblesystem verwendeten. Unsere Ergebnisse zeigen, dass die Kombination von Wort-Unigrammen mit i-Vektoren höhere Scores erzielt als Systeme, die mit einer größeren Anzahl von n-Gramm-Features trainiert wurden. Unsere besten Systeme erreichten F1-Scores von 87,16 %, 83,33 % und 91,75 % in der Essay-, Speech- und Fusion-Aufgabe jeweils.

Weniger Features erzielen gute Ergebnisse bei der Aufgabe der Identifikation der Muttersprache | Neueste Forschungsarbeiten | HyperAI