6ヶ月前

アプローチ／フレームワーク

自然言語処理

Jiashu Yao Heyan Huang Zeming Liu Yuhang Guo

概要

データ拡張は機械翻訳におけるコーパスの多様性を高める有効な手法であるが、従来の手法は不可逆的な操作やランダムなサブワードサンプリングプロセスにより、元データと拡張データの間に意味的な不整合を引き起こす可能性がある。符号的に多様でありながら意味的に整合性を持つ拡張データを生成するため、我々は神経機械翻訳向けにシンプルかつ効果的なデータ拡張手法である「決定論的可逆データ拡張（Deterministic Reversible Data Augmentation: DRDA）」を提案する。DRDAは決定論的な分割と可逆な操作を採用し、多粒度のサブワード表現を生成するとともに、マルチビュー技術を用いてそれらを相互に近づける。追加のコーパスやモデルの変更を必要とせず、複数の翻訳タスクにおいて強力なベースラインを明確な差で上回り（Transformerベースラインに対して最大4.3のBLEU向上）、ノイズが多い、低リソース、クロスドメインのデータセットにおいても優れたロバスト性を示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

アプローチ／フレームワーク

自然言語処理

Jiashu Yao Heyan Huang Zeming Liu Yuhang Guo

概要

データ拡張は機械翻訳におけるコーパスの多様性を高める有効な手法であるが、従来の手法は不可逆的な操作やランダムなサブワードサンプリングプロセスにより、元データと拡張データの間に意味的な不整合を引き起こす可能性がある。符号的に多様でありながら意味的に整合性を持つ拡張データを生成するため、我々は神経機械翻訳向けにシンプルかつ効果的なデータ拡張手法である「決定論的可逆データ拡張（Deterministic Reversible Data Augmentation: DRDA）」を提案する。DRDAは決定論的な分割と可逆な操作を採用し、多粒度のサブワード表現を生成するとともに、マルチビュー技術を用いてそれらを相互に近づける。追加のコーパスやモデルの変更を必要とせず、複数の翻訳タスクにおいて強力なベースラインを明確な差で上回り（Transformerベースラインに対して最大4.3のBLEU向上）、ノイズが多い、低リソース、クロスドメインのデータセットにおいても優れたロバスト性を示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

ニューラル機械翻訳における決定論的可逆データ拡張 | 記事 | HyperAI超神経