AI阅读之谜:从位置到意义的关键转变
当今的人工智能系统在处理自然语言方面已经取得了惊人的成就。我们可以与诸如ChatGPT、Gemini等系统进行自然流畅的对话,其表现几乎可以媲美人。然而,关于这些神经网络内部如何学习语言的机制,我们仍知之甚少。 近日,哈佛大学的研究团队在《统计力学:理论与实验》杂志上发表了一项名为“点积注意力模型中位置和语义学习的相变”的研究,揭示了这一奥秘的关键部分。该研究发现,在初始阶段,当神经网络接受的训练数据量较少时,它们主要依赖于句子中单词的位置来理解意义。例如,根据单词在句子中的位置,网络可以推断出它们之间的关系,确定哪些是主语、谓语或宾语。然而,随着系统接触到更多数据,一旦超过某个临界值,这种学习策略会发生骤变,网络转而依赖单词的意义来进行理解和沟通。 这项转变类似于物理学中的相变过程,如水在特定条件下从液态变为气态。研究的第一作者、哈佛大学博士后研究员Hugo Cui解释说,自我注意机制是Transformer语言模型的核心组成部分之一,这种机制通过评估每个单词相对于其他单词的重要性来理解句子中的关系。在实验中,他们观察到,当数据量低于某一阈值时,网络完全依赖位置;而当超过阈值时,网络则完全转向依赖意义。这个转变是突然且明确的。 Cui表示,这种从位置到意义的学习策略转变具有重要的理论价值。尽管他们的研究模型相比实际应用中的复杂模型更为简化,但这些发现有助于我们理解导致模型选择不同策略的条件。未来,这种理论知识有望用于提高神经网络的效率和安全性,使AI的应用更加可靠。 业内专家认为,这一研究为解码复杂的语言模型提供了新的视角,对于理解AI如何逐渐掌握人类语言的本质具有重要意义。这项工作不仅有助于优化现有模型,还有望推动下一代语言处理算法的发展。同时,该研究再次证明了哈佛大学在人工智能基础研究方面的领先地位。