6ヶ月前

自然言語処理

アプローチ／フレームワーク

自然言語処理

Pedro Henrique Martins Zita Marinho André F. T. Martins

概要

Transformerモデルは、コンテキスト長に応じて計算量が増加するため、長期記憶を効果的に扱うことができない。効率化されたTransformerのバリエーションはこれまでに提案されてきたが、いずれも有限の記憶容量を持ち、古い情報を捨てざるを得ないという課題を抱えている。本論文では、従来のTransformerに無限の長期記憶を拡張した「 $\infty$ -former」を提案する。本モデルは、長期記憶に対して連続空間におけるアテンション機構を用いることで、アテンションの計算複雑度をコンテキスト長に依存せずに済ませ、記憶長さと精度のトレードオフを実現する。精度をより重視すべき領域を制御するために、 $\infty$ -formerは「スタック記憶（sticky memories）」を維持し、計算予算を一定に保ったまま任意に長いコンテキストをモデル化可能である。合成的なソートタスク、言語モデリング、文書に基づく対話生成に関する実験により、 $\infty$ -formerが長期間にわたるシーケンスからの情報を効果的に保持できることを示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

自然言語処理

アプローチ／フレームワーク

自然言語処理

Pedro Henrique Martins Zita Marinho André F. T. Martins

概要

Transformerモデルは、コンテキスト長に応じて計算量が増加するため、長期記憶を効果的に扱うことができない。効率化されたTransformerのバリエーションはこれまでに提案されてきたが、いずれも有限の記憶容量を持ち、古い情報を捨てざるを得ないという課題を抱えている。本論文では、従来のTransformerに無限の長期記憶を拡張した「 $\infty$ -former」を提案する。本モデルは、長期記憶に対して連続空間におけるアテンション機構を用いることで、アテンションの計算複雑度をコンテキスト長に依存せずに済ませ、記憶長さと精度のトレードオフを実現する。精度をより重視すべき領域を制御するために、 $\infty$ -formerは「スタック記憶（sticky memories）」を維持し、計算予算を一定に保ったまま任意に長いコンテキストをモデル化可能である。合成的なソートタスク、言語モデリング、文書に基づく対話生成に関する実験により、 $\infty$ -formerが長期間にわたるシーケンスからの情報を効果的に保持できることを示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています