Command Palette
Search for a command to run...
OpenMementos コンテキストメモリ圧縮データセット
OpenMementosは、Microsoftが2026年にリリースしたコンテキストメモリ圧縮データセットで、大規模モデルの長連鎖推論とコンテキスト管理機能をモデル化するために設計されています。このデータセットは、コンテキスト圧縮と連続推論を実行するモデルをトレーニングすることを目的としており、限られたコンテキストウィンドウ内で複雑な多段階推論タスクをサポートします。長連鎖推論モデリング、メモリ強化型モデルトレーニング、効率的な生成など、幅広い研究シナリオに適用可能です。 このデータセットはOpenThoughts推論データセットを基に構築されており、228,557の構造化推論トラックが含まれています。内訳は、数学トラックが123,333件、科学トラックが61,485件、プログラミングトラックが43,739件です。トラックあたりの平均文数は187です。
データ構造
このデータセットには2つのサブセットが含まれています。 デフォルト: トレーニングおよび教師ありファインチューニング (SFT) に使用されます。
- problem(string): 問題文(入力)
- レスポンス(文字列):ブロック/サマリータグを含む、Memento形式の推論レスポンス。
- ドメイン(文字列):データが属するドメイン(例:コード、数学、科学)。
- source (文字列): データの元のソース (OpenThoughts-v3 より)
- difficulty(int): 問題の難易度 フル:詳細な調査やパイプライン処理に使用されます 上記で挙げた項目に加えて、中間処理ステップに関する詳細情報も含まれています。
- sentences(list[string]): レスポンスから抽出された文のリスト。詳細なモデリングと分析に使用されます。
blocks(list[list[int]]): 推論ブロックの境界インデックス。各要素は[start_idx, end_idx]で、このブロックに対応する文の範囲を表します。- block_summaries(list[string]): 各ブロックの段階の概要。段階的な圧縮と抽象化の推論プロセスを反映しています。