@inproceedings{ren2026memlens, title={{MemLens}: Benchmarking Multimodal Long-Context Conversational Memory in Vision-Language Models}, author={Ren, Xiyu and Wang, Zhaowei and Du, Yiming and Xie, Zhongwei and Liu, Chi and Yang, Xinlin and Feng, Haoyue and Pan, Wenjun and Zheng, Tianshi and Xu, Baixuan and Li, Zhengnan and Song, Yangqiu and Wong, Ginny and See, Simon}, booktitle={Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track}, year={2026} }

날짜

2달 전

라이선스

CC BY 4.0

태그

다중모달

기준

에이전트

MemLens는 시각 언어 모델에서 장기 대화 기억을 평가하기 위한 벤치마크 데이터셋입니다. 이 데이터셋은 32,000, 64,000, 128,000, 256,000 크기의 컨텍스트 윈도우 내에서 다중 대화에 포함된 시각적 및 텍스트 정보를 검색, 회상, 업데이트 및 추론하는 모델의 능력을 테스트하도록 설계되었습니다. 이 데이터셋은 정보 추출, 지식 업데이트, 시간 추론, 다중 대화 추론, 거부(기권) 등 5가지 평가 유형을 포괄하는 789개의 문항으로 구성되어 있으며, 4가지 컨텍스트 길이 구성(32K / 64K / 128K / 256K)을 제공합니다. 추론 비용의 균형을 맞추기 위해 메모리 증강 에이전트 평가를 위한 195개의 문항으로 이루어진 추가적인 고정 수준 계층화 하위 집합도 제공됩니다.

소환

@inproceedings{ren2026memlens,
title={{MemLens}: Benchmarking Multimodal Long-Context Conversational Memory in Vision-Language Models},
author={Ren, Xiyu and Wang, Zhaowei and Du, Yiming and Xie, Zhongwei and Liu, Chi and Yang, Xinlin and Feng, Haoyue and Pan, Wenjun and Zheng, Tianshi and Xu, Baixuan and Li, Zhengnan and Song, Yangqiu and Wong, Ginny and See, Simon},
booktitle={Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track},
year={2026}
}

이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

undefined

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

이 데이터셋 사용 Discord에서 논의하기

날짜

2달 전

라이선스

CC BY 4.0

태그

다중모달

기준

에이전트

소환

@inproceedings{ren2026memlens,
title={{MemLens}: Benchmarking Multimodal Long-Context Conversational Memory in Vision-Language Models},
author={Ren, Xiyu and Wang, Zhaowei and Du, Yiming and Xie, Zhongwei and Liu, Chi and Yang, Xinlin and Feng, Haoyue and Pan, Wenjun and Zheng, Tianshi and Xu, Baixuan and Li, Zhengnan and Song, Yangqiu and Wong, Ginny and See, Simon},
booktitle={Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track},
year={2026}
}

undefined

TACK 타겟 키메라 지식 기반 데이터 세트

한 달 전

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

한 달 전

ViMU 비디오 은유 이해 데이터셋

한 달 전

MathNet 멀티모달 수학 벤치마크 추론 데이터셋

2달 전

Claw-Eval 실세계 벤치마크 데이터셋

2달 전

안저 질환 분류 데이터 세트

2달 전

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

24일 전

MIA 다단계 추론 및 결정 궤적 데이터셋

3달 전

OmniParsingBench 멀티모달 구문 분석 기능 평가 데이터 세트

24일 전

수트라 10B 사전 훈련 교육 및 훈련 데이터 세트

3달 전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

소환

AI로 AI 구축

HyperAI Newsletters

Command Palette

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

소환

undefined

TACK 타겟 키메라 지식 기반 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

ViMU 비디오 은유 이해 데이터셋

MathNet 멀티모달 수학 벤치마크 추론 데이터셋

Claw-Eval 실세계 벤치마크 데이터셋

안저 질환 분류 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

MIA 다단계 추론 및 결정 궤적 데이터셋

OmniParsingBench 멀티모달 구문 분석 기능 평가 데이터 세트

수트라 10B 사전 훈련 교육 및 훈련 데이터 세트

AI로 AI 구축

HyperAI Newsletters

Command Palette

MemLens 멀티모달 장기 컨텍스트 벤치마크 데이터셋

소환

undefined

TACK 타겟 키메라 지식 기반 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

ViMU 비디오 은유 이해 데이터셋

MathNet 멀티모달 수학 벤치마크 추론 데이터셋

Claw-Eval 실세계 벤치마크 데이터셋

안저 질환 분류 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

MIA 다단계 추론 및 결정 궤적 데이터셋

OmniParsingBench 멀티모달 구문 분석 기능 평가 데이터 세트

수트라 10B 사전 훈련 교육 및 훈련 데이터 세트

AI로 AI 구축

HyperAI Newsletters

undefined

TACK 타겟 키메라 지식 기반 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

ViMU 비디오 은유 이해 데이터셋

MathNet 멀티모달 수학 벤치마크 추론 데이터셋

Claw-Eval 실세계 벤치마크 데이터셋

안저 질환 분류 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

MIA 다단계 추론 및 결정 궤적 데이터셋

OmniParsingBench 멀티모달 구문 분석 기능 평가 데이터 세트

수트라 10B 사전 훈련 교육 및 훈련 데이터 세트

undefined

TACK 타겟 키메라 지식 기반 데이터 세트

chi-bench 의료 지능형 에이전트 벤치마크 평가 데이터 세트

ViMU 비디오 은유 이해 데이터셋

MathNet 멀티모달 수학 벤치마크 추론 데이터셋

Claw-Eval 실세계 벤치마크 데이터셋

안저 질환 분류 데이터 세트

RSRCC 원격 감지 영역 변화 이해 벤치마크 데이터 세트

MIA 다단계 추론 및 결정 궤적 데이터셋

OmniParsingBench 멀티모달 구문 분석 기능 평가 데이터 세트

수트라 10B 사전 훈련 교육 및 훈련 데이터 세트