HyperAIHyperAI

Command Palette

Search for a command to run...

Die Kompositionale Generalisierungsfähigkeit großer Sprachmodelle unter Berücksichtigung der Anweisungsbefolgungsfähigkeit erneut betrachten

Yusuke Sakai Hidetaka Kamigaito Taro Watanabe

Zusammenfassung

Bei generativen Aufgaben des allgemeinen Verstandes, wie zum Beispiel CommonGen, komponieren generative große Sprachmodelle (LLMs) Sätze, die alle gegebenen Konzepte enthalten. Wenn jedoch die Fähigkeit zur Befehlsausführung im Vordergrund steht und eine Anweisung eine bestimmte Reihenfolge der Konzepte vorgibt, müssen LLMs Sätze erzeugen, die dieser festgelegten Reihenfolge entsprechen. Um dies zu bewerten, schlagen wir Ordered CommonGen vor, einen Benchmark, der darauf abzielt, die compositionale Generalisierung und die Befehlsausführungsfähigkeiten von LLMs zu evaluieren. Dieser Benchmark misst die geordnete Abdeckung, um zu prüfen, ob die Konzepte in der angegebenen Reihenfolge generiert werden, was es ermöglicht, beide Fähigkeiten gleichzeitig zu bewerten. Wir haben eine umfassende Analyse mit 36 LLMs durchgeführt und festgestellt, dass LLMs im Allgemeinen die Absicht der Anweisungen verstehen. Vorurteile gegenüber bestimmten Muster von Konzeptreihenfolgen führen jedoch oft zu wenig diversen Ausgaben oder sogar identischen Ergebnissen, selbst wenn die Reihenfolge der Konzepte verändert wird. Darüber hinaus erreichte sogar das sprachmodell mit den besten Befehlsausführungsleistungen nur etwa 75 % geordnete Abdeckung. Dies unterstreicht die Notwendigkeit von Verbesserungen sowohl in den Befehlsausführungs- als auch in den compositionalen Generalisierungsfähigkeiten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Die Kompositionale Generalisierungsfähigkeit großer Sprachmodelle unter Berücksichtigung der Anweisungsbefolgungsfähigkeit erneut betrachten | Paper | HyperAI