日付

3ヶ月前

データセット構成

ライセンス

MIT

タグ

OpenMementosは、Microsoftが2026年にリリースしたコンテキストメモリ圧縮データセットで、大規模モデルの長連鎖推論とコンテキスト管理機能をモデル化するために設計されています。このデータセットは、コンテキスト圧縮と連続推論を実行するモデルをトレーニングすることを目的としており、限られたコンテキストウィンドウ内で複雑な多段階推論タスクをサポートします。長連鎖推論モデリング、メモリ強化型モデルトレーニング、効率的な生成など、幅広い研究シナリオに適用可能です。このデータセットはOpenThoughts推論データセットを基に構築されており、228,557の構造化推論トラックが含まれています。内訳は、数学トラックが123,333件、科学トラックが61,485件、プログラミングトラックが43,739件です。トラックあたりの平均文数は187です。

データ構造

このデータセットには2つのサブセットが含まれています。 デフォルト: トレーニングおよび教師ありファインチューニング (SFT) に使用されます。

problem(string): 問題文（入力）
レスポンス（文字列）：ブロック/サマリータグを含む、Memento形式の推論レスポンス。
ドメイン（文字列）：データが属するドメイン（例：コード、数学、科学）。
source (文字列): データの元のソース (OpenThoughts-v3 より)
difficulty(int): 問題の難易度 フル：詳細な調査やパイプライン処理に使用されます 上記で挙げた項目に加えて、中間処理ステップに関する詳細情報も含まれています。
sentences(list[string]): レスポンスから抽出された文のリスト。詳細なモデリングと分析に使用されます。
blocks(list[list[int]]): 推論ブロックの境界インデックス。各要素は[start_idx, end_idx]で、このブロックに対応する文の範囲を表します。
block_summaries(list[string]): 各ブロックの段階の概要。段階的な圧縮と抽象化の推論プロセスを反映しています。

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

Command Palette

OpenMementos コンテキストメモリ圧縮データセット

データ構造

AIでAIを構築

HyperAI Newsletters

Command Palette

OpenMementos コンテキストメモリ圧縮データセット

データ構造

関連データセット

Transfermarkt サッカー データセット

トウモロコシの葉の病気データセット

リンゴの葉の病気データセット

PanScaleリモートセンシングPancolorシャープニングデータセット

MIA多段階推論および決定軌跡データセット

脳卒中リスクデータセット

スパムメール検出データセット

シンプルな音声質問データセット

CHOCLO ラテンアメリカ文化ベンチマークデータセット

COCO-2017-ベトナム語画像検出データセット

DRACOクロスドメイン深層研究ベンチマークデータセット

クリエイティブ専門家向けクリエイティブタスク指示データセット

歴史的なパンデミックとエピデミック：世界的な歴史的エピデミックデータセット

学生のメンタルヘルスと燃え尽き症候群に関するデータセット

zh-meme-sft-8k 中国インターネットミーム文化データセット

CHIMERA一般推論合成データセット

肺がん臨床データセット

Open-RL推論問題データセット

薬物有害反応シミュレーションデータセット

汎がんscRNA-Seqがん単一細胞転写アトラスデータセット

AIでAIを構築

HyperAI Newsletters

Command Palette

OpenMementos コンテキストメモリ圧縮データセット

データ構造

関連データセット

Transfermarkt サッカー データセット

トウモロコシの葉の病気データセット

リンゴの葉の病気データセット

PanScaleリモートセンシングPancolorシャープニングデータセット

MIA多段階推論および決定軌跡データセット

脳卒中リスクデータセット

スパムメール検出データセット

シンプルな音声質問データセット

CHOCLO ラテンアメリカ文化ベンチマークデータセット

COCO-2017-ベトナム語画像検出データセット

DRACOクロスドメイン深層研究ベンチマークデータセット

クリエイティブ専門家向けクリエイティブタスク指示データセット

歴史的なパンデミックとエピデミック：世界的な歴史的エピデミックデータセット

学生のメンタルヘルスと燃え尽き症候群に関するデータセット

zh-meme-sft-8k 中国インターネットミーム文化データセット

CHIMERA一般推論合成データセット

肺がん臨床データセット

Open-RL推論問題データセット

薬物有害反応シミュレーションデータセット

汎がんscRNA-Seqがん単一細胞転写アトラスデータセット

AIでAIを構築

HyperAI Newsletters

関連データセット

Transfermarkt サッカー データセット

トウモロコシの葉の病気データセット

リンゴの葉の病気データセット

PanScaleリモートセンシングPancolorシャープニングデータセット

MIA多段階推論および決定軌跡データセット

脳卒中リスクデータセット

スパムメール検出データセット

シンプルな音声質問データセット

CHOCLO ラテンアメリカ文化ベンチマークデータセット

COCO-2017-ベトナム語画像検出データセット

DRACOクロスドメイン深層研究ベンチマークデータセット

クリエイティブ専門家向けクリエイティブタスク指示データセット

歴史的なパンデミックとエピデミック：世界的な歴史的エピデミックデータセット

学生のメンタルヘルスと燃え尽き症候群に関するデータセット

zh-meme-sft-8k 中国インターネットミーム文化データセット

CHIMERA一般推論合成データセット

肺がん臨床データセット

Open-RL推論問題データセット

薬物有害反応シミュレーションデータセット

汎がんscRNA-Seqがん単一細胞転写アトラスデータセット

関連データセット

Transfermarkt サッカー データセット

Transfermarkt サッカーデータセット

Transfermarkt サッカーデータセット

Transfermarkt サッカーデータセット

Transfermarkt サッカーデータセット