Die Kompositionale Generalisierungsfähigkeit großer Sprachmodelle unter Berücksichtigung der Anweisungsbefolgungsfähigkeit erneut betrachten

Bei generativen Aufgaben des allgemeinen Verstandes, wie zum Beispiel CommonGen, komponieren generative große Sprachmodelle (LLMs) Sätze, die alle gegebenen Konzepte enthalten. Wenn jedoch die Fähigkeit zur Befehlsausführung im Vordergrund steht und eine Anweisung eine bestimmte Reihenfolge der Konzepte vorgibt, müssen LLMs Sätze erzeugen, die dieser festgelegten Reihenfolge entsprechen. Um dies zu bewerten, schlagen wir Ordered CommonGen vor, einen Benchmark, der darauf abzielt, die compositionale Generalisierung und die Befehlsausführungsfähigkeiten von LLMs zu evaluieren. Dieser Benchmark misst die geordnete Abdeckung, um zu prüfen, ob die Konzepte in der angegebenen Reihenfolge generiert werden, was es ermöglicht, beide Fähigkeiten gleichzeitig zu bewerten. Wir haben eine umfassende Analyse mit 36 LLMs durchgeführt und festgestellt, dass LLMs im Allgemeinen die Absicht der Anweisungen verstehen. Vorurteile gegenüber bestimmten Muster von Konzeptreihenfolgen führen jedoch oft zu wenig diversen Ausgaben oder sogar identischen Ergebnissen, selbst wenn die Reihenfolge der Konzepte verändert wird. Darüber hinaus erreichte sogar das sprachmodell mit den besten Befehlsausführungsleistungen nur etwa 75 % geordnete Abdeckung. Dies unterstreicht die Notwendigkeit von Verbesserungen sowohl in den Befehlsausführungs- als auch in den compositionalen Generalisierungsfähigkeiten.