HyperAI超神经

大语言模型常产生被称为“幻觉”的错误陈述。Known Unknowns任务旨在通过探测试模型是否能正确识别问题答案未知，以检测这一失败模式。该任务的目标是评估模型在面对未知真相时，能否避免偏好错误预测而选择承认未知。这有助于提升模型的可靠性和透明度，增强其在实际应用场景中的可信度。

暂无数据

该任务下暂无可用的基准测试数据

暂无数据

该任务下暂无可用的基准测试数据

Command Palette