날짜

3달 전

조직

라이선스

MIT

태그

OpenMementos는 마이크로소프트에서 2026년에 공개한 컨텍스트 메모리 압축 데이터셋으로, 대규모 모델의 긴 체인 추론 및 컨텍스트 관리 기능을 모델링하기 위해 설계되었습니다. 이 데이터셋은 컨텍스트 압축 및 연속 추론을 수행하는 모델을 학습시켜 제한된 컨텍스트 윈도우 내에서 복잡한 다단계 추론 작업을 지원하는 것을 목표로 합니다. 긴 체인 추론 모델링, 메모리 효율 향상 모델 학습, 효율적인 생성 등 다양한 연구 시나리오에 활용될 수 있습니다. 이 데이터셋은 OpenThoughts 추론 데이터셋을 기반으로 구축되었으며, 123,333개의 수학 트랙, 61,485개의 과학 트랙, 43,739개의 프로그래밍 트랙을 포함하여 총 228,557개의 구조화된 추론 트랙을 포함합니다. 트랙당 평균 문장 수는 187개입니다.

데이터 구조

이 데이터 세트는 두 개의 하위 집합을 제공합니다. 기본값: 학습 및 지도 미세 조정(SFT)에 사용됩니다.

problem(string): 문제 설명 (입력)
응답(문자열): 블록/요약 태그를 포함하는 Memento 형식의 추론 응답입니다.
도메인(문자열): 데이터가 속하는 도메인(예: 코드, 수학, 과학).
출처(문자열): 데이터의 원래 출처(OpenThoughts-v3 기준)
난이도(정수): 문제의 난이도 full: 심층 연구 또는 자동 처리에 사용됨 위에서 언급한 필드 외에도 중간 처리 단계에 대한 자세한 정보가 포함되어 있습니다.
sentences(list[string]): 응답에서 추출한 문장 목록으로, 세밀한 모델링 및 분석에 사용됩니다.
blocks(list[list[int]]): 추론 블록의 경계 인덱스이며, 각 요소는 [start_idx, end_idx]로, 이 블록에 해당하는 문장 범위를 나타냅니다.
block_summaries(list[string]): 각 블록의 단계를 요약한 것으로, 점진적인 압축 및 추상화라는 추론 과정을 반영합니다.

이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

undefined

Command Palette

OpenMementos 컨텍스트 메모리 압축 데이터 세트

데이터 구조

AI로 AI 구축

HyperAI Newsletters

Command Palette

OpenMementos 컨텍스트 메모리 압축 데이터 세트

데이터 구조

undefined

Transfermarkt 축구 데이터세트

옥수수 잎 질병 데이터 세트

사과 잎 질병 데이터 세트

PanScale 원격 감지 팬컬러 선명도 향상 데이터 세트

MIA 다단계 추론 및 결정 궤적 데이터셋

뇌졸중 위험 데이터 세트

스팸 이메일 탐지 데이터 세트

간단한 음성 질문 데이터 세트

CHOCLO 라틴 아메리카 문화 벤치마크 데이터 세트

COCO-2017-베트남어 이미지 탐지 데이터셋

DRACO 학제간 심층 연구 벤치마크 데이터셋

창작 전문가를 위한 창작 작업 지침 데이터 세트

역사적 팬데믹 및 전염병 글로벌 역사적 전염병 데이터 세트

학생 정신 건강 및 소진 데이터 세트

zh-meme-sft-8k 중국 인터넷 밈 문화 데이터셋

CHIMERA 일반 추론 합성 데이터 세트

폐암 임상 데이터 세트

Open-RL 추론 문제 데이터셋

약물 부작용 시뮬레이션 데이터 세트

범암 scRNA-Seq 암 단일세포 전사 아틀라스 데이터셋

AI로 AI 구축

HyperAI Newsletters

Command Palette

OpenMementos 컨텍스트 메모리 압축 데이터 세트

데이터 구조

undefined

Transfermarkt 축구 데이터세트

옥수수 잎 질병 데이터 세트

사과 잎 질병 데이터 세트

PanScale 원격 감지 팬컬러 선명도 향상 데이터 세트

MIA 다단계 추론 및 결정 궤적 데이터셋

뇌졸중 위험 데이터 세트

스팸 이메일 탐지 데이터 세트

간단한 음성 질문 데이터 세트

CHOCLO 라틴 아메리카 문화 벤치마크 데이터 세트

COCO-2017-베트남어 이미지 탐지 데이터셋

DRACO 학제간 심층 연구 벤치마크 데이터셋

창작 전문가를 위한 창작 작업 지침 데이터 세트

역사적 팬데믹 및 전염병 글로벌 역사적 전염병 데이터 세트

학생 정신 건강 및 소진 데이터 세트

zh-meme-sft-8k 중국 인터넷 밈 문화 데이터셋

CHIMERA 일반 추론 합성 데이터 세트

폐암 임상 데이터 세트

Open-RL 추론 문제 데이터셋

약물 부작용 시뮬레이션 데이터 세트

범암 scRNA-Seq 암 단일세포 전사 아틀라스 데이터셋

AI로 AI 구축

HyperAI Newsletters

undefined

Transfermarkt 축구 데이터세트

옥수수 잎 질병 데이터 세트

사과 잎 질병 데이터 세트

PanScale 원격 감지 팬컬러 선명도 향상 데이터 세트

MIA 다단계 추론 및 결정 궤적 데이터셋

뇌졸중 위험 데이터 세트

스팸 이메일 탐지 데이터 세트

간단한 음성 질문 데이터 세트

CHOCLO 라틴 아메리카 문화 벤치마크 데이터 세트

COCO-2017-베트남어 이미지 탐지 데이터셋

DRACO 학제간 심층 연구 벤치마크 데이터셋

창작 전문가를 위한 창작 작업 지침 데이터 세트

역사적 팬데믹 및 전염병 글로벌 역사적 전염병 데이터 세트

학생 정신 건강 및 소진 데이터 세트

zh-meme-sft-8k 중국 인터넷 밈 문화 데이터셋

CHIMERA 일반 추론 합성 데이터 세트

폐암 임상 데이터 세트

Open-RL 추론 문제 데이터셋

약물 부작용 시뮬레이션 데이터 세트

범암 scRNA-Seq 암 단일세포 전사 아틀라스 데이터셋

undefined

Transfermarkt 축구 데이터세트