Command Palette
Search for a command to run...
MemLensマルチモーダル長コンテキストベンチマークデータセット
MemLensは、視覚言語モデルにおける長距離対話記憶を評価するためのベンチマークデータセットです。32K、64K、128K、256Kのコンテキストウィンドウ内で、複数会話の対話に埋め込まれた視覚情報とテキスト情報を取得、想起、更新、推論するモデルの能力をテストするように設計されています。 このデータセットには、情報抽出、知識更新、時間推論、複数会話推論、拒否(棄却)の5つの評価タイプを網羅する789の質問が含まれており、4つのコンテキスト長構成(32K / 64K / 128K / 256K)が提供されています。さらに、推論コストのバランスを取るために、メモリ拡張エージェントを評価するための固定レベルの階層化サブセット(195の質問)も用意されています。
引用
@inproceedings{ren2026memlens,
title={{MemLens}: Benchmarking Multimodal Long-Context Conversational Memory in Vision-Language Models},
author={Ren, Xiyu and Wang, Zhaowei and Du, Yiming and Xie, Zhongwei and Liu, Chi and Yang, Xinlin and Feng, Haoyue and Pan, Wenjun and Zheng, Tianshi and Xu, Baixuan and Li, Zhengnan and Song, Yangqiu and Wong, Ginny and See, Simon},
booktitle={Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track},
year={2026}
}