Command Palette
Search for a command to run...
Ensemble De Données LongBlocks Pour La Réponse À Des Questions Multilingues À Contexte Long
Date
Licence
CC BY-SA 4.0
LongBlocks est un ensemble de données de synthèse multilingue à long contexte publié en 2026 par l'Université de Lisbonne, l'Instituto de Telecomunicações, TransPerfect et d'autres institutions. Cet ensemble de données contient environ 194 000 exemples de questions-réponses à contexte long, couvrant des corpus de documents longs tels que des livres, du texte de pages Web, Wikipédia, des articles arXiv, du code de programmation et des questions-réponses communautaires.
Champs de données:
- id : Chaîne de caractères, un identifiant d’instance unique (utilisé uniquement pour récupérer des données de livres restreintes ; nul pour les autres sources).
- document : Chaîne de caractères, contenu long du document source (null pour les données de livre limitées).
- source : Chaîne de caractères, le nom du corpus source.
- Langue : une chaîne de caractères représentant la langue ou le langage de programmation de l’exemple.
- Question : Composition de chaînes de caractères, problème du contexte long.
- Réponse : Chaîne de caractères, une réponse de référence qui a été filtrée pour vérifier son authenticité.
- response_Qwen3-Next-80B-A3B / response_Qwen3.5-27B / response_Nemotron-3-Nano-30B-A3B : Chaînes correspondant aux réponses générées du modèle enseignant.
Créer de l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.