9日前
短い文字列における言語識別向けに、Apple社の双方向LSTMモデルの再現
Mads Toftrup, Søren Asger Sørensen, Manuel R. Ciosici, Ira Assent

要約
言語識別とは、文書の言語を特定するタスクである。自動スペルチェッカーの選択などといった応用においては、テキストメッセージの断片のような非常に短い文字列を対象とする必要がある。本研究では、Appleがブログ記事で一時的に紹介した言語識別アーキテクチャを再現した。その結果、双方向LSTM(bi-LSTM)モデルの性能を確認し、現在公開されているオープンソースの言語識別器と比較して優れた性能を発揮することが分かった。さらに、このモデルの誤識別は、関連する言語間での混同に起因していることが明らかになった。