5ヶ月前

モデル学習

テキスト生成

アプローチ／フレームワーク

自然言語処理

Zayd M. K. Zuhri Erland Hilman Fuadi Alham Fikri Aji

概要

マルチトークン予測（Multi-Token Prediction: MTP）は、言語モデルの学習における次トークン予測（Next-Token Prediction: NTP）の性能向上を目的とした補助的目標として提案されたが、標準的な自然言語処理（NLP）ベンチマークにおいて一貫した改善を示さず、逆に性能が劣ることがある。本研究では、MTPが正確な未来トークンの予測を補助損失として課すことがあまりに困難であると考える。代わりに、我々はトークン順序予測（Token Order Prediction: TOP）を提案する。TOPは、学習による順序付け（learning-to-rank）損失を用いて、モデルに近い順に予測されるトークンの順序を学ばせるものである。MTPが複数のTransformer層を必要とするのに対し、TOPはMTPと比較して追加のアンエムベディング層を1つだけ必要とする。本研究では、340M、1.8B、7Bパラメータ規模のモデルを、NTP、MTP、TOPの各目的関数を用いて事前学習した。8つの標準的なNLPベンチマークにおける実験結果から、規模が拡大してもTOPはNTPおよびMTPを上回る性能を全体的に示した。本研究のコードは、https://github.com/zaydzuhri/token-order-prediction にて公開されている。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

5ヶ月前

モデル学習

テキスト生成

アプローチ／フレームワーク

自然言語処理

Zayd M. K. Zuhri Erland Hilman Fuadi Alham Fikri Aji

概要

マルチトークン予測（Multi-Token Prediction: MTP）は、言語モデルの学習における次トークン予測（Next-Token Prediction: NTP）の性能向上を目的とした補助的目標として提案されたが、標準的な自然言語処理（NLP）ベンチマークにおいて一貫した改善を示さず、逆に性能が劣ることがある。本研究では、MTPが正確な未来トークンの予測を補助損失として課すことがあまりに困難であると考える。代わりに、我々はトークン順序予測（Token Order Prediction: TOP）を提案する。TOPは、学習による順序付け（learning-to-rank）損失を用いて、モデルに近い順に予測されるトークンの順序を学ばせるものである。MTPが複数のTransformer層を必要とするのに対し、TOPはMTPと比較して追加のアンエムベディング層を1つだけ必要とする。本研究では、340M、1.8B、7Bパラメータ規模のモデルを、NTP、MTP、TOPの各目的関数を用いて事前学習した。8つの標準的なNLPベンチマークにおける実験結果から、規模が拡大してもTOPはNTPおよびMTPを上回る性能を全体的に示した。本研究のコードは、https://github.com/zaydzuhri/token-order-prediction にて公開されている。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています