2 个月前
大型语言模型受困于红鲱鱼效应:利用“Only Connect Wall”数据集探索创造性问题解决和定势效应
Saeid Naeini; Raeid Saqur; Mozhgan Saeidi; John Giorgi; Babak Taati

摘要
自人工智能(AI)研究诞生以来,追求模仿人类的AI一直是该领域的持久话题。最新一代大型语言模型(LLMs)的技术进步和新兴能力重新激发了这一主题,使其不仅在学术界内受到关注,还进入了文化主流。尽管最近的自然语言处理(NLP)评估基准任务测试了一些人类模仿行为的方面(例如,BIG-bench 的“类人行为”任务),但很少有任务,甚至没有任务专门考察创造性问题解决能力。人类的创造性问题解决是一个认知神经科学中广泛研究的主题,通常使用线索词之间建立(异质)联系的能力作为创造力的衡量指标。暴露于误导性刺激——被称为“红鲱鱼”的干扰项——会通过固定效应和定势范式影响人类在这些任务中的表现。在认知神经科学研究中,这种固定效应是通过预先向参与者展示与后续单词片段或线索正字法相似的错误单词来实验性诱导的。英国流行的智力问答节目《Only Connect》中的“连接墙”环节本质上模拟了梅德尼克的远距离联想测试(Remote Associates Test, RAT),其中包含了故意设置的红鲱鱼干扰项,这使得它成为探索和研究大型语言模型中认知神经科学的固定效应和定势范式的理想代理数据集。本文介绍了新的 Only Connect Wall(OCW)数据集,并报告了我们对选定预训练语言模型和大型语言模型在创造性问题解决任务上的评估结果,如根据异质联系对线索词进行分组,以及识别各组中正确的开放知识域联系。我们还合成了两个额外的数据集:OCW-Randomized 和 OCW-WordNet,以进一步分析语言模型中的红鲱鱼假设。代码和数据集链接可在 https://github.com/TaatiTeam/OCW 获取。