11日前

大規模言語モデルを用いた文埋め込みのスケーリング

Ting Jiang, Shaohan Huang, Zhongzhi Luan, Deqing Wang, Fuzhen Zhuang
大規模言語モデルを用いた文埋め込みのスケーリング
要約

近年、大規模言語モデル(LLMs)は大きな注目を集めている。文脈内学習(in-context learning)を用いることで、LLMsはさまざまな自然言語処理タスクにおいて優れた成果を達成している。しかし、LLMsを文埋め込み(sentence embeddings)に応用する研究は、依然として進行中の課題である。本研究では、文埋め込みの性能向上を目的として、文脈内学習に基づく新しい手法を提案する。本手法は、自己回帰モデル向けに従来のプロンプトベース表現手法を適応し、LLMsが文脈内学習を実行できるようにするデモンストレーションセットを構築することで構成されている。さらに、モデルサイズを異なるスケールに拡張することで、性能の変化を調査している。広範な実験の結果、文脈内学習により、微調整(fine-tuning)なしで高品質な文埋め込みを生成することが可能であることが示された。このアプローチにより、現在の対照学習(contrastive learning)手法と同等の性能を達成することが可能となった。モデルサイズの拡張を検討した結果、数十億パラメータを超える規模への拡大は、意味的テキスト類似度(STS)タスクにおいて性能を低下させる傾向があることが分かった。一方で、最大規模のモデルは他のモデルを上回り、転移学習タスクにおいて新たな最良の結果を達成した。また、現在の対照学習手法を用いてLLMsの微調整も行い、27億パラメータのOPTモデルに本研究のプロンプトベース手法を組み合わせた場合、48億パラメータのST5よりも優れた性能を発揮し、STSタスクにおいて新たな最良の結果を達成した。本研究のコードは、https://github.com/kongds/scaling_sentemb にて公開されている。

大規模言語モデルを用いた文埋め込みのスケーリング | 最新論文 | HyperAI超神経