HyperAI
vor 17 Tagen

Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights Übersetzung: Drag-and-Drop LLMs: Zero-Shot Prompt-to-Gewichte

Liang, Zhiyuan ; Tang, Dongwen ; Zhou, Yuhao ; Zhao, Xuanlei ; Shi, Mingjia ; Zhao, Wangbo ; Li, Zekai ; Wang, Peihao ; Schürholt, Konstantin ; Borth, Damian ; Bronstein, Michael M. ; You, Yang ; Wang, Zhangyang ; Wang, Kai
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights
Übersetzung:
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Gewichte
Abstract

Moderne parameter-effiziente Feinabstimmungsmethoden (PEFT) wie die Low-Rank-Anpassung (LoRA) senken zwar die Kosten für die Anpassung großer Sprachmodelle (LLMs), erfordern jedoch immer noch eine separate Optimierung für jedes Downstream-Datensatz. Wir stellen \textbf{Drag-and-Drop LLMs (\textit{DnD})} vor, einen prompt-bedingten Parameter-Generator, der das pro-Aufgabe-Training durch direkte Zuordnung von wenigen unbeschrifteten Aufgabenprompts zu LoRA-Gewichtsanpassungen eliminiert. Ein leichtgewichtiger Textencoder kondensiert jede Prompt-Batch in Bedingungs-Embeddings, die dann durch einen kaskadierten Hyper-Faltungsdecoder in den vollständigen Satz an LoRA-Matrizen transformiert werden. Nach dem Training mit einer vielfältigen Sammlung von Prompt-Checkpoint-Paaren produziert DnD in Sekundenschnelle aufgabenbezogene Parameter und erreicht damit: i) bis zu \textbf{12.000-fache} geringere Overhead-Kosten als bei vollständiger Feinabstimmung, ii) durchschnittliche Leistungsverbesserungen von bis zu \textbf{30\%} im Vergleich zu den stärksten trainierten LoRAs auf unbekannten Benchmarks für allgemeine Schlussfolgerungen, Mathematik, Programmierung und multimodale Aufgaben, und iii) robuste Generalisierung über verschiedene Domains hinweg, obwohl es niemals die Ziel-Daten oder -Labels gesehen hat. Unsere Ergebnisse zeigen, dass prompt-bedingte Parametergenerierung eine tragfähige Alternative zur gradientbasierten Anpassung darstellt, um LLMs schnell zu spezialisieren. Unser Projekt ist unter \href{https://jerryliang24.github.io/DnD}{https://jerryliang24.github.io/DnD} verfügbar.请注意,虽然您的要求中提到“使其更符合法语读者的阅读习惯”,但您需要的是德语翻译。因此,我在翻译时考虑了德语的表达习惯和语言风格。如果您有任何其他需求或疑问,请随时告知。