HyperAIHyperAI

Command Palette

Search for a command to run...

OpenMementos Kontextspeicher Komprimierter Datensatz

Datum

vor 19 Stunden

Organisation

Microsoft

Lizenz

MIT

OpenMementos ist ein von Microsoft im Jahr 2026 veröffentlichter Datensatz zur Kontext- und Speicherkomprimierung, der für die Modellierung von Inferenzprozessen über lange Ketten und die Kontextverwaltung großer Modelle entwickelt wurde. Ziel dieses Datensatzes ist es, Modelle für die Kontextkomprimierung und kontinuierliche Inferenz zu trainieren und so komplexe, mehrstufige Inferenzaufgaben innerhalb eines begrenzten Kontextfensters zu unterstützen. Er ist vielseitig einsetzbar, beispielsweise für die Modellierung von Inferenzprozessen über lange Ketten, das Training speicheroptimierter Modelle und die effiziente Generierung von Modellen. Dieser Datensatz basiert auf dem OpenThoughts-Inferenzdatensatz und enthält 228.557 strukturierte Inferenzspuren, darunter 123.333 mathematische Spuren, 61.485 naturwissenschaftliche Spuren und 43.739 Programmierspuren. Die durchschnittliche Anzahl der Sätze pro Spur beträgt 187.

Datenstruktur

Dieser Datensatz enthält zwei Teilmengen: Standardmäßig: Wird für das Training und das überwachte Feinabstimmen (SFT) verwendet.

  • problem(string): Problemstellung (Eingabe)
  • Antwort (Zeichenkette): Eine Memento-formatierte Inferenzantwort mit Block-/Zusammenfassungs-Tags.
  • Domäne (Zeichenkette): Die Domäne, zu der die Daten gehören (z. B. Code, Mathematik, Naturwissenschaften).
  • Quelle (Zeichenkette): Die ursprüngliche Datenquelle (aus OpenThoughts-v3)
  • Schwierigkeitsgrad (int): Der Schwierigkeitsgrad des Problems vollständig: Wird für detaillierte Recherchen oder die Verarbeitung von Pipelines verwendet. Zusätzlich zu den oben genannten Feldern enthält es auch detaillierte Informationen über die Zwischenverarbeitungsschritte:
  • sentences(list[string]): Eine Liste von Sätzen, die aus der Antwort abgeleitet wurden und für eine detaillierte Modellierung und Analyse verwendet werden.
  • blocks(list[list[int]]): Begrenzungsindizes der Inferenzblöcke, wobei jedes Element [start_idx, end_idx] ist und den Satzbereich darstellt, der diesem Block entspricht.
  • block_summaries(list[string]): Eine Zusammenfassung der einzelnen Phasen jedes Blocks, die den Denkprozess der progressiven Komprimierung und Abstraktion widerspiegelt.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp