HyperAIHyperAI

Command Palette

Search for a command to run...

N-Grammer:潜在n-gramを活用したTransformerの拡張

概要

近年、Transformerモデルは自然言語処理分野における基盤的なモデルの一つとして登場し、それに伴い、これらのモデルをスケーリングする取り組みに対する関心と投資が著しく高まっている。しかし、大規模なTransformer言語モデルの学習および推論コストは非常に高いため、より効率的なバリエーションの開発に関するさらなる研究が不可欠である。本研究では、統計的言語モデルに関する先行研究に着想を得て、テキスト系列の離散的潜在表現から構成されるn-gramをモデルに追加するという、シンプルながら有効なTransformerアーキテクチャの改良を提案する。我々は、C4データセットにおける言語モデリングおよびSuperGLUEデータセットにおけるテキスト分類の実験を通じて、提案モデル「N-Grammer」の性能を評価した結果、TransformerやPrimerといった強力なベースラインモデルを上回ることが明らかになった。本研究では再現性を確保するため、Jaxを用いたモデルのオープンソースを実施した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています