机器学习算法使小型表格数据集上的预测更快、更准确。
1 个月前
《机器学习算法实现更快、更准确的小型表格数据预测》 德国弗莱堡大学Frank Hutter教授领导的团队开发了一种名为TabPFN的机器学习算法,它能够在小型表格数据集上实现更快、更准确的预测。该算法由Nature杂志于2025年发表,研究涉及弗莱堡大学、弗莱堡大学医学院、柏林大学医学院、弗莱堡初创公司PriorLabs及蒂宾根ELLIS研究所。 传统算法如XGBoost在处理大型数据集时表现良好,但在小型数据集上表现不佳。TabPFN通过学习合成数据集中的因果关系,能够在小型数据集上提供更可靠的预测。该模型经过1亿个合成数据集的训练,特别在处理包含多个异常值或缺失值的表格数据时表现优异。例如,TabPFN仅需50%的数据即可达到先前最佳模型的准确性,并能高效适应新型数据,而无需针对每个数据集进行单独训练。 该算法广泛适用于生物医学、经济学及物理学等领域,尤其适合资源有限的小型公司和团队。研究人员计划进一步优化TabPFN,使其在大型数据集上也能提供最佳预测。代码及使用指南已公开发布。