HyperAI超神経
17日前

ドラッグアンドドロップ LLM: ゼロショット プロンプトツーウェイツ

Liang, Zhiyuan ; Tang, Dongwen ; Zhou, Yuhao ; Zhao, Xuanlei ; Shi, Mingjia ; Zhao, Wangbo ; Li, Zekai ; Wang, Peihao ; Schürholt, Konstantin ; Borth, Damian ; Bronstein, Michael M. ; You, Yang ; Wang, Zhangyang ; Wang, Kai
ドラッグアンドドロップ LLM: ゼロショット プロンプトツーウェイツ
要約

現代のパラメータ効率的な微調整(Parameter-Efficient Fine-Tuning: PEFT)手法、例えば低ランク適応(Low-Rank Adaptation: LoRA)は、大規模言語モデル(Large Language Models: LLMs)のカスタマイズコストを削減しますが、それでも各ダウンストリームデータセットに対して個別の最適化プロセスが必要です。本稿では、\textbf{ドラッグアンドドロップLLM (\textit{DnD})} を提案します。これは、数少ない未ラベルのタスクプロンプトを直接LoRA重み更新にマッピングすることで、タスクごとの訓練を不要にするプロンプト条件付きパラメータジェネレーターです。軽量なテキストエンコーダーが各プロンプトバッチを条件埋め込みに蒸留し、その後、連続的なハイパーテンションデコーダーによって完全なLoRA行列集合に変換されます。多様なプロンプト-チェックポイントペアで訓練された後、DnDは数秒でタスク固有のパラメータを生成し、i) 完全微調整よりも最大 \textbf{12,000倍} 低いオーバーヘッドを実現し、ii) 未見の常識推論、数学、コーディング、およびマルチモーダルベンチマークにおいて最も強力な訓練済みLoRAと比較して平均性能向上率が最大 \textbf{30\%} となり、iii) ターゲットデータやラベルを見たことなく堅牢なクロスドメイン汎化能力を持つことが示されました。これらの結果は、プロンプト条件付きパラメータ生成が勾配に基づく適応の代替手段として急速に専門化するLLMへの適用可能性があることを示しています。当プロジェクトは \href{https://jerryliang24.github.io/DnD}{https://jerryliang24.github.io/DnD} で利用可能です。