Command Palette
Search for a command to run...
VisCoR-55K ビジュアル推論データセット
VisCoR-55Kは、華中科技大学がアリババクラウドと共同で2026年に公開した、高品質な視覚推論データセットです。このデータセットには約55,000個の視覚推論サンプルが含まれており、それぞれが比較サンプルを用いて対応する推論プロセスを生成します。一般、推論、数学、グラフ、OCRという5つの主要なカテゴリの高品質な視覚推論データセットを網羅しており、視覚言語モデルを用いた信頼性と堅牢性に優れた視覚推論の研究を促進することを目的としています。 データセットの構成 – VQAサンプル:オリジナルの視覚的質問応答サンプル – 対照的な対応関係:信頼できる推論を促すために用いられる、質問と回答のペア。 – 生成された根拠:VC-STaRフレームワークを使用して合成された高品質の推論チェーン

引用
@inproceedings{pan2026through,
title={Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs},
author={Pan, Zhiyu and Wu, Yizheng and Hua, Jiasheng and Feng, Junyi and Yan, Shaotian and Deng, Bing and Cao, Zhiguo and Ye, Jieping},
booktitle={The Fourteenth International Conference on Learning Representations},
year={2026}
}