Utiliser ce jeu de données Discuter sur Discord

Date

il y a 3 mois

Organisation

Licence

MIT

Balises

Mathématiques

Traitement Du Langage Naturel

Microsoft

Agent

Reasoning

OpenMementos est un jeu de données de compression de contexte et de mémoire, publié par Microsoft en 2026. Il est conçu pour modéliser l'inférence en chaîne longue et les capacités de gestion du contexte des grands modèles. Ce jeu de données vise à entraîner des modèles à effectuer une compression de contexte et une inférence continue, permettant ainsi de réaliser des tâches d'inférence complexes en plusieurs étapes dans une fenêtre de contexte limitée. Il est largement applicable à des scénarios de recherche tels que la modélisation de l'inférence en chaîne longue, l'entraînement de modèles optimisés pour la mémoire et la génération efficace. Cet ensemble de données est basé sur le jeu de données d'inférence OpenThoughts et contient 228 557 séquences d'inférence structurées, dont 123 333 en mathématiques, 61 485 en sciences et 43 739 en programmation. Chaque séquence comprend en moyenne 187 phrases.

Structure des données

Cet ensemble de données fournit deux sous-ensembles : valeur par défaut : utilisée pour l’entraînement et le réglage fin supervisé (SFT).

problème(chaîne) : Énoncé du problème (entrée)
réponse (chaîne de caractères) : Une réponse d'inférence au format Memento contenant des balises de bloc/résumé.
domaine (chaîne de caractères) : Le domaine auquel appartiennent les données (par exemple, code, mathématiques, sciences).
source (chaîne de caractères) : La source originale des données (issue d’OpenThoughts-v3)
difficulté (entier) : Le niveau de difficulté du problème complet : utilisé pour la recherche approfondie ou le traitement automatisé Outre les champs mentionnés ci-dessus, il contient également des informations détaillées sur les étapes de traitement intermédiaires :
sentences(list[string]): Une liste de phrases dérivées de la réponse, utilisée pour une modélisation et une analyse fines.
blocks(list[list[int]]): Indices de limite des blocs d'inférence, chaque élément étant [start_idx, end_idx], représentant la plage de phrases correspondant à ce bloc.
block_summaries(list[string]): Un résumé des étapes de chaque bloc, reflétant le processus de raisonnement de la compression et de l'abstraction progressives.

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

Command Palette

Ensemble De Données Compressées En Mémoire Contextuelle OpenMementos

Structure des données

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données Compressées En Mémoire Contextuelle OpenMementos

Structure des données

undefined

Transfermarkt Football 足球转会数据集

Base De Données Sur Les Maladies Des Feuilles De Maïs

Ensemble De Données Sur Les Maladies Des Feuilles De Pommier

Ensemble De Données d'amélioration De La Netteté Pancolor Par Télédétection À Grande Échelle

Ensemble De Données MIA Sur Les Trajectoires d'inférence Et De Décision Multi-étapes

Ensemble De Données Sur Le Risque d'AVC

Ensemble De Données Pour La Détection Des Courriels Indésirables

Ensemble De Données De Questions Vocales Simples

Ensemble De Données De Référence Culturelles Latino-américaines CHOCLO

COCO-2017 - Ensemble De Données De Détection d'images Vietnamiennes

Ensemble De Données De Référence Pour La Recherche Approfondie Interdisciplinaire DRACO

Ensemble De Données d'instructions Pour Les Tâches Créatives Des Professionnels Créatifs

Données Historiques Mondiales Sur Les Pandémies Et Épidémies : Ensemble De Données Épidémiologiques Historiques

Données Sur La Santé Mentale Et l'épuisement Professionnel Des Étudiants

zh-meme-sft-8k Ensemble De Données Sur La Culture Des Mèmes Internet Chinois

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

Ensemble De Données Cliniques Sur Le Cancer Du Poumon

Ensemble De Données Du Problème d'inférence Open-RL

Ensemble De Données De Simulation Des Effets Indésirables Des Médicaments

Ensemble De Données De l'Atlas Transcriptionnel Unicellulaire Du Cancer Par scRNA-Seq Pancancéreux

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données Compressées En Mémoire Contextuelle OpenMementos

Structure des données

undefined

Transfermarkt Football 足球转会数据集

Base De Données Sur Les Maladies Des Feuilles De Maïs

Ensemble De Données Sur Les Maladies Des Feuilles De Pommier

Ensemble De Données d'amélioration De La Netteté Pancolor Par Télédétection À Grande Échelle

Ensemble De Données MIA Sur Les Trajectoires d'inférence Et De Décision Multi-étapes

Ensemble De Données Sur Le Risque d'AVC

Ensemble De Données Pour La Détection Des Courriels Indésirables

Ensemble De Données De Questions Vocales Simples

Ensemble De Données De Référence Culturelles Latino-américaines CHOCLO

COCO-2017 - Ensemble De Données De Détection d'images Vietnamiennes

Ensemble De Données De Référence Pour La Recherche Approfondie Interdisciplinaire DRACO

Ensemble De Données d'instructions Pour Les Tâches Créatives Des Professionnels Créatifs

Données Historiques Mondiales Sur Les Pandémies Et Épidémies : Ensemble De Données Épidémiologiques Historiques

Données Sur La Santé Mentale Et l'épuisement Professionnel Des Étudiants

zh-meme-sft-8k Ensemble De Données Sur La Culture Des Mèmes Internet Chinois

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

Ensemble De Données Cliniques Sur Le Cancer Du Poumon

Ensemble De Données Du Problème d'inférence Open-RL

Ensemble De Données De Simulation Des Effets Indésirables Des Médicaments

Ensemble De Données De l'Atlas Transcriptionnel Unicellulaire Du Cancer Par scRNA-Seq Pancancéreux

Créer de l'IA avec l'IA

HyperAI Newsletters

undefined

Transfermarkt Football 足球转会数据集

Base De Données Sur Les Maladies Des Feuilles De Maïs

Ensemble De Données Sur Les Maladies Des Feuilles De Pommier

Ensemble De Données d'amélioration De La Netteté Pancolor Par Télédétection À Grande Échelle

Ensemble De Données MIA Sur Les Trajectoires d'inférence Et De Décision Multi-étapes

Ensemble De Données Sur Le Risque d'AVC

Ensemble De Données Pour La Détection Des Courriels Indésirables

Ensemble De Données De Questions Vocales Simples

Ensemble De Données De Référence Culturelles Latino-américaines CHOCLO

COCO-2017 - Ensemble De Données De Détection d'images Vietnamiennes

Ensemble De Données De Référence Pour La Recherche Approfondie Interdisciplinaire DRACO

Ensemble De Données d'instructions Pour Les Tâches Créatives Des Professionnels Créatifs

Données Historiques Mondiales Sur Les Pandémies Et Épidémies : Ensemble De Données Épidémiologiques Historiques

Données Sur La Santé Mentale Et l'épuisement Professionnel Des Étudiants

zh-meme-sft-8k Ensemble De Données Sur La Culture Des Mèmes Internet Chinois

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

Ensemble De Données Cliniques Sur Le Cancer Du Poumon

Ensemble De Données Du Problème d'inférence Open-RL

Ensemble De Données De Simulation Des Effets Indésirables Des Médicaments

Ensemble De Données De l'Atlas Transcriptionnel Unicellulaire Du Cancer Par scRNA-Seq Pancancéreux

undefined

Transfermarkt Football 足球转会数据集