6ヶ月前

テキスト生成

アプローチ／フレームワーク

自然言語処理

Yuchen Hu Chen Chen Chao-Han Huck Yang Ruizhe Li Dong Zhang Zhehuai Chen Eng Siong Chng

概要

近年の大規模言語モデル（LLM）の進展により、表現誤差の低減および外部知識の統合が進み、多言語音声翻訳および機械翻訳の分野が大きく前進している。しかし、これらの翻訳タスクでは一般的に、推論においてビームサーチによるデコードとトップ-1の仮説選択が用いられている。このような手法は、多様なN-best仮説に含まれる豊富な情報を十分に活用できず、単一の高品質な出力系列を必要とする翻訳タスクにおいて最適とは言えない。本論文では、LLMを基盤として、N-bestリスト内の多様な翻訳候補からより優れた翻訳結果を生成する新しい生成パラダイム「GenTranslate」を提案する。本手法は、LLMが持つ豊富な言語知識および強力な推論能力を活用し、N-best候補に含まれる情報を統合することで、より高品質な翻訳出力を得ることを可能にする。さらに、LLMのファインチューニングを支援するため、11言語で59万2千件以上の仮説-翻訳ペアを含む「HypoTranslate」データセットを構築し、公開した。FLEURS、CoVoST-2、WMTなど、さまざまな音声翻訳および機械翻訳ベンチマークにおける実験結果から、GenTranslateが最先端モデルを顕著に上回ることが確認された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

テキスト生成

アプローチ／フレームワーク

自然言語処理

Yuchen Hu Chen Chen Chao-Han Huck Yang Ruizhe Li Dong Zhang Zhehuai Chen Eng Siong Chng

概要

近年の大規模言語モデル（LLM）の進展により、表現誤差の低減および外部知識の統合が進み、多言語音声翻訳および機械翻訳の分野が大きく前進している。しかし、これらの翻訳タスクでは一般的に、推論においてビームサーチによるデコードとトップ-1の仮説選択が用いられている。このような手法は、多様なN-best仮説に含まれる豊富な情報を十分に活用できず、単一の高品質な出力系列を必要とする翻訳タスクにおいて最適とは言えない。本論文では、LLMを基盤として、N-bestリスト内の多様な翻訳候補からより優れた翻訳結果を生成する新しい生成パラダイム「GenTranslate」を提案する。本手法は、LLMが持つ豊富な言語知識および強力な推論能力を活用し、N-best候補に含まれる情報を統合することで、より高品質な翻訳出力を得ることを可能にする。さらに、LLMのファインチューニングを支援するため、11言語で59万2千件以上の仮説-翻訳ペアを含む「HypoTranslate」データセットを構築し、公開した。FLEURS、CoVoST-2、WMTなど、さまざまな音声翻訳および機械翻訳ベンチマークにおける実験結果から、GenTranslateが最先端モデルを顕著に上回ることが確認された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

GenTranslate：大規模言語モデルは生成型マルチリンガル音声および機械翻訳システムである | 記事 | HyperAI超神経