HyperAIHyperAI

Command Palette

Search for a command to run...

キャッシュ・ミー・イフ・ユー・キャン:大規模言語モデルへの呼び出しを削減するためのオンラインコスト意識型教師-学生フレームワーク

Ilias Stogiannidis Stavros Vassos Prodromos Malakasiotis Ion Androutsopoulos

概要

大規模言語モデル(LLMs)は、ゼロショットおよびファーソット設定において非常に優れた性能を発揮します。そのため、大規模なタスク固有の学習データセットの作成コストや自社の大規模言語モデルの事前学習コストを負担できない中小企業(SMEs)が、LLMにプロンプトを送信できるサードパーティサービスにますます依存しています。しかし、これらのサービスは現在、呼び出しごとに支払いが必要であり、これが大きな運用費(OpEx)となることがあります。さらに、顧客からの入力は時間とともに非常に類似することが多いため、中小企業はLLMに対して非常に類似したインスタンスをプロンプトする傾向があります。本稿では、以前のLLM応答をキャッシュし、それらを使用して中小企業側で安価なローカルモデルを学習させるフレームワークを提案します。このフレームワークには、ローカルモデルを信頼するかLLMに呼び出すべきかを決定する基準と、その基準の調整方法および性能とコストのトレードオフを測定する手法が含まれています。実験的目的のために、我々はGPT-3.5またはGPT-4という2つの大規模言語モデルと、k-NN分類器または多層パーセプトロンという2つの安価なモデルを使用してフレームワークを具体化しました。2つの一般的なビジネスタスクである意図認識と感情分析を使用しています。実験結果は、性能が僅かに低下するだけで大幅な運用費削減が得られることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています