HyperAI超神经

掷骰子与三思而行:超越下一个词汇预测的创意边界

Vaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan
发布日期: 4/23/2025
掷骰子与三思而行:超越下一个词汇预测的创意边界
摘要

我们设计了一系列简约的算法任务,这些任务是对开放性现实世界任务的一种松散抽象。这使我们能够清晰且可控地量化当前语言模型的创造性极限。就像现实世界中需要创造性、远见卓识的思想飞跃的任务一样,我们的任务也需要一个隐式的、开放性的随机规划步骤,要么(a)在抽象知识图谱中发现新的联系(例如在文字游戏、类比推理或研究中),要么(b)构建新的模式(例如在设计数学问题或新蛋白质时)。在这些任务中,我们从实证和概念上论证了下一个词学习方法具有短视性且过度依赖记忆;相比之下,多词方法,即无教师训练和扩散模型,在生成多样性和原创性输出方面表现出色。其次,在我们的任务中,我们发现为了从Transformer中激发随机性而不损害连贯性,最好是在输入层直接注入噪声(通过一种我们称之为哈希条件化的方法),而不是依赖于从输出层进行温度采样。因此,我们的工作提供了一个原则性的、简约的测试平台来分析开放性创造技能,并为超越下一个词学习和基于softmax的采样提供了新的论据。部分代码可在https://github.com/chenwu98/algorithmic-creativity 获取。 注:原文中的“hash-conditioning”是一种特定的技术方法,在中文翻译后保留了原文以确保信息完整。