
要約
自然言語処理(NLP)モデルは、単語埋め込みのために大量のパラメータを必要とすることが多く、その結果、大きなストレージやメモリの占有量となります。モバイルデバイスへのニューラルNLPモデルの展開には、性能に大きな影響を与えることなく単語埋め込みを圧縮する必要があります。この目的のために、私たちは少数の基底ベクトルを使用して埋め込みを構築することを提案します。各単語について、基底ベクトルの組成はハッシュコードによって決定されます。圧縮率を最大化するために、バイナリコーディングスキームではなくマルチコードブック量子化アプローチを採用します。各コードは複数の離散数値(例:(3, 2, 1, 8))で構成され、各成分の値は固定範囲内に制限されます。私たちはGumbel-softmaxトリックを適用することで、エンドツーエンドのニューラルネットワークで直接離散コードを学習することを提案します。実験では、感情分析タスクにおいて98%の圧縮率が達成され、機械翻訳タスクでは94%〜99%の圧縮率が達成されました(性能低下なし)。両方のタスクにおいて、提案手法は若干の圧縮率低下によりモデル性能を向上させることができます。他のアプローチ(例えば文字レベルセグメンテーション)と比較すると、提案手法は言語に依存せず、ネットワークアーキテクチャへの変更も必要ありません。