HyperAIHyperAI

Command Palette

Search for a command to run...

MemLensマルチモーダル長コンテキストベンチマークデータセット

日付

5時間後

ライセンス

CC BY 4.0

MemLensは、視覚言語モデルにおける長距離対話記憶を評価するためのベンチマークデータセットです。32K、64K、128K、256Kのコンテキストウィンドウ内で、複数会話の対話に埋め込まれた視覚情報とテキスト情報を取得、想起、更新、推論するモデルの能力をテストするように設計されています。 このデータセットには、情報抽出、知識更新、時間推論、複数会話推論、拒否(棄却)の5つの評価タイプを網羅する789の質問が含まれており、4つのコンテキスト長構成(32K / 64K / 128K / 256K)が提供されています。さらに、推論コストのバランスを取るために、メモリ拡張エージェントを評価するための固定レベルの階層化サブセット(195の質問)も用意されています。

引用

@inproceedings{ren2026memlens,
title={{MemLens}: Benchmarking Multimodal Long-Context Conversational Memory in Vision-Language Models},
author={Ren, Xiyu and Wang, Zhaowei and Du, Yiming and Xie, Zhongwei and Liu, Chi and Yang, Xinlin and Feng, Haoyue and Pan, Wenjun and Zheng, Tianshi and Xu, Baixuan and Li, Zhengnan and Song, Yangqiu and Wong, Ginny and See, Simon},
booktitle={Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track},
year={2026}
}

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています