12日前

少数の特徴量がネイティブ言語識別タスクにおいて優れた性能を発揮する

{{\c{C}}a{\u{g}}r{\i} {\c{C}}{\o}ltekin, Taraka Rama}
少数の特徴量がネイティブ言語識別タスクにおいて優れた性能を発揮する
要約

本論文では、NLI共有タスク2017における当研究グループの成果について述べる。我々は、与えられた入力の母語を同定するタスクを対象に、エッセイ、スピーチ、および統合(フェュージョン)タスクに参加した。エッセイタスクでは、単語バイグラムと文字7-グラムを用いた線形SVMシステムが最も優れた性能を示した。スピーチタスクでは、音声のトランスクリプションから得られるテキスト特徴とiベクトルを組み合わせた統合システムよりも、iベクトルのみを用いたLDA分類器が優れた結果を達成した。統合タスクでは、iベクトルと高次n-グラム特徴の組み合わせ、iベクトルと単語ユニグラムの組み合わせ、平均確率アンサンブル、およびスタックドアンサンブルシステムの検証を行った。その結果、より多くのn-グラム特徴を用いて訓練されたシステムよりも、単語ユニグラムとiベクトルの組み合わせがより高いスコアを達成することが明らかになった。最良のシステムは、それぞれエッセイタスク、スピーチタスク、統合タスクでF1スコア87.16%、83.33%、91.75%を達成した。