2ヶ月前

キャッシュ・ミー・イフ・ユー・キャン:大規模言語モデルへの呼び出しを削減するためのオンラインコスト意識型教師-学生フレームワーク

Ilias Stogiannidis; Stavros Vassos; Prodromos Malakasiotis; Ion Androutsopoulos
キャッシュ・ミー・イフ・ユー・キャン:大規模言語モデルへの呼び出しを削減するためのオンラインコスト意識型教師-学生フレームワーク
要約

大規模言語モデル(LLMs)は、ゼロショットおよびファーソット設定において非常に優れた性能を発揮します。そのため、大規模なタスク固有の学習データセットの作成コストや自社の大規模言語モデルの事前学習コストを負担できない中小企業(SMEs)が、LLMにプロンプトを送信できるサードパーティサービスにますます依存しています。しかし、これらのサービスは現在、呼び出しごとに支払いが必要であり、これが大きな運用費(OpEx)となることがあります。さらに、顧客からの入力は時間とともに非常に類似することが多いため、中小企業はLLMに対して非常に類似したインスタンスをプロンプトする傾向があります。本稿では、以前のLLM応答をキャッシュし、それらを使用して中小企業側で安価なローカルモデルを学習させるフレームワークを提案します。このフレームワークには、ローカルモデルを信頼するかLLMに呼び出すべきかを決定する基準と、その基準の調整方法および性能とコストのトレードオフを測定する手法が含まれています。実験的目的のために、我々はGPT-3.5またはGPT-4という2つの大規模言語モデルと、k-NN分類器または多層パーセプトロンという2つの安価なモデルを使用してフレームワークを具体化しました。2つの一般的なビジネスタスクである意図認識と感情分析を使用しています。実験結果は、性能が僅かに低下するだけで大幅な運用費削減が得られることを示しています。