Routoo: Lernen, effektiv auf große Sprachmodelle zu routen

LLMs mit überlegener Antwortqualität – insbesondere größere oder geschlossene Modelle – gehen oft mit höheren Inferenzkosten einher, was ihre Bereitstellung ineffizient und teuer macht. Gleichzeitig wird die Entwicklung grundlegender LLMs von Grund auf neu zunehmend ressourcenintensiver und für viele Anwendungen unpraktikabel. Um die Herausforderung der Balance zwischen Qualität und Kosten zu bewältigen, stellen wir Routoo vor, eine Architektur, die darauf ausgelegt ist, die Auswahl von LLMs für spezifische Anfragen basierend auf Leistung, Kosten und Effizienz zu optimieren. Routoo bietet Kontrolle über den Kompromiss zwischen Inferenzkosten und Qualität, was es ermöglicht, bei gegebenen Qualitätsanforderungen erhebliche Reduktionen der Inferenzkosten zu erzielen. Routoo besteht aus zwei wesentlichen Komponenten: einem Leistungsprognosemodell und einem kostenbewussten Selektormodul. Das Leistungsprognosemodell ist ein leichtgewichtiges LLM, das die erwartete Leistung verschiedener zugrundeliegender LLMs an einer bestimmten Anfrage schätzt, ohne diese auszuführen. Das kostenbewusste Selektormodul wählt dann das am besten geeignete Modell basierend auf diesen Prognosen und unter Berücksichtigung von Einschränkungen wie Kosten und Latenz, was die Inferenzkosten bei gleicher Qualität erheblich reduziert. Wir haben Routoo unter Verwendung des MMLU-Benchmarks in 57 Domänen mit offenen Quelltextmodellen evaluiert. Unsere Ergebnisse zeigen, dass Routoo die Leistung des Mixtral 8x7b-Modells erreicht, während es die Inferenzkosten um ein Drittel senkt. Zudem übertreffen die Genauigkeit von Routoo bei gleichbleibenden Kosten das Mixtral-Modell um mehr als 5%, wobei eine Genauigkeit von 75,9% erreicht wird. Bei der Integration von GPT4 in unseren Modelpool nähert sich Routoo fast dem Leistungsniveau von GPT4 bei halben Kosten an und übertreffen es sogar bei einer Kostensenkung von 25%. Diese Ergebnisse unterstreichen das Potenzial von Routoo, um erhebliche Reduktionen der Inferenzkosten ohne Qualitätsverlust zu erreichen und sogar neue Standards durch den Einsatz der kollektiven Fähigkeiten mehrerer LLMs zu setzen.