Command Palette
Search for a command to run...
LongBlocks Long Context Multilingual Question Answering Dataset
Datum
Lizenz
CC BY-SA 4.0
LongBlocks ist ein mehrsprachiger Synthesedatensatz mit langem Kontext, der 2026 von der Universität Lissabon, dem Instituto de Telecomunicações, TransPerfect und anderen Institutionen veröffentlicht wurde. Dieser Datensatz enthält ungefähr 194.000 Beispiele für Fragen und Antworten mit langem Kontext und deckt lange Dokumentenkorpora wie Bücher, Webseitentexte, Wikipedia, arXiv-Artikel, Programmcode und Community-Fragen und -Antworten ab.
Datenfelder:
- id: Zeichenkette, eine eindeutige Instanzkennung (wird nur zum Abrufen von eingeschränkten Buchdaten verwendet; null für andere Quellen).
- document: String, langer Quelldokumentinhalt (null bei begrenzten Buchdaten).
- Quelle: Zeichenkette, der Name des Quellkorpus.
- Sprache: Eine Zeichenkette, die die Sprache oder Programmiersprache des Beispiels repräsentiert.
- Frage: Stringkomposition, Problem mit langem Kontext.
- Antwort: Zeichenkette, eine Referenzantwort, die auf Authentizität geprüft wurde.
- response_Qwen3-Next-80B-A3B / response_Qwen3.5-27B / response_Nemotron-3-Nano-30B-A3B: Zeichenketten, die den generierten Antworten des Lehrermodells entsprechen.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.