HyperAIHyperAI

Command Palette

Search for a command to run...

从熵到Epiplexity:重新思考计算有限智能的信息

Marc Finzi Shikai Qiu Yiding Jiang Pavel Izmailov J. Zico Kolter Andrew Gordon Wilson

摘要

我们能否从数据中获取比生成过程本身所蕴含的更多信息?仅通过对现有数据施加确定性变换,是否能构建出新的、有用的信息?在不考虑下游任务的情况下,能否评估数据中可学习内容的大小?对于这些问题,香农信息论与科尔莫戈罗夫复杂性几乎无能为力,部分原因在于它们假设观察者具备无限的计算能力,且未能聚焦于信息的“有用性”内容。在本研究中,我们揭示并举例说明了信息论中的三个看似矛盾的现象:(1)确定性变换无法增加信息;(2)信息与数据的顺序无关;(3)似然建模本质上只是分布匹配。为了阐明这些理论结果与现代实践之间的张力,并量化数据的价值,我们提出了“表征复杂度”(epiplexity)这一概念——它是一种形式化信息的度量,刻画了在计算能力受限的观察者视角下,从数据中能够学习到的内容。表征复杂度捕捉了数据中的结构化信息,同时排除了时间受限的熵(即由伪随机数生成器和混沌动力系统所体现的随机不可预测内容)。借助这些概念,我们展示了信息如何通过计算被“创造”出来,揭示了信息对数据顺序的依赖性,并说明了似然建模能够生成比原始数据生成过程本身更为复杂的程序。此外,我们还提出了一系列可操作的表征复杂度估算方法,实证表明这些方法能够区分不同数据源的特性,与下游任务性能变化保持一致,并能识别出有助于提升模型在分布外泛化能力的数据集干预措施。与传统的模型选择原则不同,表征复杂度为数据选择提供了理论基础,指导我们如何选择、生成或转换数据,以服务于学习系统的设计与优化。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供