@inproceedings{ren2026memlens, title={{MemLens}: Benchmarking Multimodal Long-Context Conversational Memory in Vision-Language Models}, author={Ren, Xiyu and Wang, Zhaowei and Du, Yiming and Xie, Zhongwei and Liu, Chi and Yang, Xinlin and Feng, Haoyue and Pan, Wenjun and Zheng, Tianshi and Xu, Baixuan and Li, Zhengnan and Song, Yangqiu and Wong, Ginny and See, Simon}, booktitle={Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track}, year={2026} }

日付

1ヶ月前

ライセンス

CC BY 4.0

タグ

マルチモーダル

ベンチマーク

エージェント

MemLensは、視覚言語モデルにおける長距離対話記憶を評価するためのベンチマークデータセットです。32K、64K、128K、256Kのコンテキストウィンドウ内で、複数会話の対話に埋め込まれた視覚情報とテキスト情報を取得、想起、更新、推論するモデルの能力をテストするように設計されています。このデータセットには、情報抽出、知識更新、時間推論、複数会話推論、拒否（棄却）の5つの評価タイプを網羅する789の質問が含まれており、4つのコンテキスト長構成（32K / 64K / 128K / 256K）が提供されています。さらに、推論コストのバランスを取るために、メモリ拡張エージェントを評価するための固定レベルの階層化サブセット（195の質問）も用意されています。

引用

@inproceedings{ren2026memlens,
title={{MemLens}: Benchmarking Multimodal Long-Context Conversational Memory in Vision-Language Models},
author={Ren, Xiyu and Wang, Zhaowei and Du, Yiming and Xie, Zhongwei and Liu, Chi and Yang, Xinlin and Feng, Haoyue and Pan, Wenjun and Zheng, Tianshi and Xu, Baixuan and Li, Zhengnan and Song, Yangqiu and Wong, Ginny and See, Simon},
booktitle={Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track},
year={2026}
}

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用 Discordで議論

日付

1ヶ月前

ライセンス

CC BY 4.0

タグ

マルチモーダル

ベンチマーク

エージェント

引用

@inproceedings{ren2026memlens,
title={{MemLens}: Benchmarking Multimodal Long-Context Conversational Memory in Vision-Language Models},
author={Ren, Xiyu and Wang, Zhaowei and Du, Yiming and Xie, Zhongwei and Liu, Chi and Yang, Xinlin and Feng, Haoyue and Pan, Wenjun and Zheng, Tianshi and Xu, Baixuan and Li, Zhengnan and Song, Yangqiu and Wong, Ginny and See, Simon},
booktitle={Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track},
year={2026}
}

TACKターゲットキメラ知識ベースデータセット

20日前

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

11日前

ViMUビデオメタファー理解データセット

24日前

MathNetマルチモーダル数学ベンチマーク推論データセット

1ヶ月前

Claw-Eval実世界ベンチマークデータセット

1ヶ月前

眼底疾患分類データセット

1ヶ月前

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

6日前

MIA多段階推論および決定軌跡データセット

2ヶ月前

OmniParsingBench マルチモーダル構文解析機能評価データセット

6日前

Sutra 10B 事前学習用教育・訓練データセット

3ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

MemLensマルチモーダル長コンテキストベンチマークデータセット

引用

AIでAIを構築

HyperAI Newsletters

Command Palette

MemLensマルチモーダル長コンテキストベンチマークデータセット

引用

関連データセット

TACKターゲットキメラ知識ベースデータセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

MIA多段階推論および決定軌跡データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

Sutra 10B 事前学習用教育・訓練データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

MemLensマルチモーダル長コンテキストベンチマークデータセット

引用

関連データセット

TACKターゲットキメラ知識ベースデータセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

MIA多段階推論および決定軌跡データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

Sutra 10B 事前学習用教育・訓練データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

TACKターゲットキメラ知識ベースデータセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

MIA多段階推論および決定軌跡データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

Sutra 10B 事前学習用教育・訓練データセット

関連データセット

TACKターゲットキメラ知識ベースデータセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

MIA多段階推論および決定軌跡データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

Sutra 10B 事前学習用教育・訓練データセット