HyperAI超神经

Bei diesem Datensatz handelt es sich um einen Benchmark-Datensatz namens LooGLE, der vom Beijing Institute of General Artificial Intelligence (GIAI) und dem Team des Peking University Institute of Artificial Intelligence zum Testen und Bewerten der Fähigkeiten großer Sprachmodelle (LLMs) zum Verständnis von Langzeitkontexten vorgeschlagen wurde.

Durch die Auswertung der neun beliebtesten Langtext-LLMs stellte LooGLE fest, dass die Leistung dieser Modelle beim Abrufen mehrerer Informationen, bei der Neuordnung der Zeit, bei Berechnungen sowie bei den Fähigkeiten zum Verstehen und Schlussfolgern bei komplexen Aufgaben mit langen Abhängigkeiten nicht optimistisch ist. Die durchschnittliche Genauigkeit kommerzieller Modelle (Claude3-200k, GPT4-32k, GPT4-8k, GPT3.5-Turbo-6k, LlamaIndex) beträgt nur 40%, und die Genauigkeit von Open-Source-Modellen (ChatGLM2-6B, LongLLaMa-3B, RWKV-4-14B-Pile, LLaMA-7B-32K) beträgt nur 10%.

Das Papier „LooGLE: Können Langkontext-Sprachmodelle lange Kontexte verstehen?“ wurde von ACL2024 akzeptiert. Die Co-Autoren des Papiers sind Li Jiaqi und Wang Mengmeng vom Institute of Communication Research, und die korrespondierenden Autoren sind Zheng Zilong, ein Forscher am Institute of Communication Research, und Zhang Muhan, ein Assistenzprofessor an der Peking-Universität.

LooGLE behebt die Mängel früherer Datensätze, indem es ultralange Texte bereitstellt, relativ neue Dokumente verwendet und sorgfältig entworfene und kommentierte Aufgaben mit wirklich langen Abhängigkeiten erstellt. Die Einführung des LooGLE-Benchmark-Datensatzes bietet nicht nur neue Tools zur Bewertung und Verbesserung von Langtext-LLMs, sondern weist auch eine neue Richtung für die Entwicklung der Sprachverarbeitungstechnologie auf Basis künstlicher Intelligenz.

LooGLE Benchmark-Datensatz Für Die Fähigkeit Zum Verständnis Langer Kontexte