HyperAIHyperAI

Command Palette

Search for a command to run...

Console
4ヶ月前

混合表現を用いたシーケンス生成

{Lijun Wu Shufang Xie Yingce Xia Fan Yang Tao Qin Jianhuang Lai Tie-Yan Liu}

要約

トークン化は、多くの自然言語処理(NLP)タスクにおける第一段階であり、ニューラルNLPモデルにおいて重要な役割を果たす。バイトペアエンコーディング(BPE)をはじめとするトークン化手法は、巨大な語彙を大幅に削減し、未知語(out-of-vocabulary words)に対処できるため、シーケンス生成タスクにおいて効果的であることが示され、広く採用されている。しかし、さまざまなトークン化手法が存在する一方で、それらの中で最も優れた手法が明確に定まっていないのが現状である。本研究では、個々のトークン化手法が持つ特徴と利点を活かすことで、モデル性能の向上を図るべく、複数のトークン化手法からの混合表現をシーケンス生成タスクに活用するアプローチを提案する。具体的には、混合表現を統合する新しいモデルアーキテクチャと、異なるトークン化手法の多様性をより効果的に活用するためのコ-teachingアルゴリズムを導入した。本手法は、英語↔ドイツ語、英語↔ルーマニア語など6つの言語ペアを対象としたニューラル機械翻訳(NMT)タスクおよび要約生成(抽象的要約)タスクにおいて、顕著な性能向上を達成した。

コードリポジトリ

ベンチマーク

ベンチマーク方法論指標
machine-translation-on-iwslt2014-englishMixedRepresentations
BLEU score: 29.93
machine-translation-on-iwslt2014-germanMixedRepresentations
BLEU score: 36.41

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています