13日前

コンテキストにおける知識:知識を備えたセミパラメトリック言語モデルへの道 (注:LLM/LLMs/Agent/token/tokens などの専門用語は原文通り英語表記を維持)

Xiaoman Pan, Wenlin Yao, Hongming Zhang, Dian Yu, Dong Yu, Jianshu Chen
コンテキストにおける知識:知識を備えたセミパラメトリック言語モデルへの道
(注:LLM/LLMs/Agent/token/tokens などの専門用語は原文通り英語表記を維持)
要約

完全パラメトリックな言語モデルは、ゼロショット/フェイショット設定で複数の自然言語タスクを処理するための必要な知識を保持するため、通常、膨大な数のモデルパラメータを必要とする。さらに、コストのかかるモデル再訓練を伴わずに、進化する世界知識に適応するのは困難である。本論文では、パラメトリックなテキスト・トゥ・テキスト言語モデルに知識豊富な外部メモリを統合する新しい半パラメトリック言語モデルアーキテクチャ、Knowledge-in-Context(KiC)を提案する。具体的には、外部メモリには、エンティティ、辞書、常識、イベント、スクリプト、因果関係の6種類の知識が含まれる。各入力インスタンスに対して、KiCモデルは適応的に適切な知識タイプを選択し、最も有益な知識を検索する。その入力インスタンスと知識拡張情報を、テキスト・トゥ・テキストモデル(例:T5)に供給し、プロンプトを用いて自然言語形式の入出力を得て出力回答を生成する。興味深いことに、KiCは特殊なMixture-of-Experts(MoE)モデルと見なすことができ、知識選択器がMoEにおけるルーターの役割を果たし、入力シーケンスから専門家(知識タイプ)への割り当てを決定する。この重要な観察に基づき、インスタンスに応じた知識選択器を備えたKiCのための新しい学習アルゴリズムを開発した。知識豊富な半パラメトリック言語モデルとして、KiCは非常に小さなパラメトリック部分のみで、未覧のタスクにおいて優れたゼロショット性能を達成できる。40以上の異なるタスクにおける評価により、7億7000万パラメータのKiC_Largeが、その4~39倍も大きな大規模言語モデル(LM)を大幅に上回ることを示した。また、完全パラメトリックモデルと比較して、はるかに小さいモデルスケールでもKiCが急激な能力の出現(emergent abilities)を示すことを実証した。

コンテキストにおける知識:知識を備えたセミパラメトリック言語モデルへの道 (注:LLM/LLMs/Agent/token/tokens などの専門用語は原文通り英語表記を維持) | 最新論文 | HyperAI超神経