HyperAIHyperAI
vor 3 Monaten

FiDO: Fusion-in-Decoder, optimiert für eine stärkere Leistung und schnellere Inferenz

Michiel de Jong, Yury Zemlyanskiy, Joshua Ainslie, Nicholas FitzGerald, Sumit Sanghai, Fei Sha, William Cohen
FiDO: Fusion-in-Decoder, optimiert für eine stärkere Leistung und schnellere Inferenz
Abstract

Fusion-in-Decoder (FiD) ist ein leistungsstarker, retrieval-erweiteter Sprachmodellansatz, der auf zahlreichen wissensintensiven NLP-Aufgaben die derzeitige State-of-the-Art-Leistung erreicht. Die Architektur von FiD basiert jedoch auf einer minimalen Anpassung eines Standard-T5-Modells, wie unsere Analyse zeigt, was für ein retrieval-erweitertes Modell äußerst suboptimal ist. Insbesondere weist FiD den Großteil der FLOPs (Floating-Point Operations) dem Encoder zu, während der Großteil der Inferenzzeit durch Speicherbandbreitenbeschränkungen im Decoder verursacht wird. Wir schlagen zwei einfache Änderungen an der FiD-Architektur vor, um diese Speicherbandbreitenbeschränkungen zu verringern und die Inferenzgeschwindigkeit um das Siebenfache zu steigern. Dadurch können wir einen deutlich größeren Decoder nutzen, ohne signifikant höhere Kosten zu verursachen. Wir bezeichnen die FiD-Architektur mit diesen Modifikationen als FiDO und zeigen, dass sie sich gegenüber bestehenden FiD-Modellen bei einer Vielzahl von Inferenzbudgets erheblich verbessert. Beispielsweise führt FiDO-Large-XXL eine schnellere Inferenz als FiD-Base durch und erreicht gleichzeitig eine bessere Leistung als FiD-Large.