摘要
数十年来,行星识别工作一直由天文学专家和研究人员借助专业设备完成。随着计算方法的发展以及对太空任务卫星数据的可获取性提升,这一局面已发生改变。例如,美国国家航空航天局(NASA)的系外行星探索计划为我们提供了大量天体数据,有力支持了空间探索工作。其中一项备受关注的任务是开普勒(Kepler)任务。自2007年任务启动以来,已发现超过4000颗凌星系外行星。该任务构建了一个庞大的发现数据库,使我们能够基于天体的尺寸、接收到的恒星辐照通量、恒星类型及轨道周期等参数,计算行星出现频率。这些信息被系统收录于《开普勒天体信息累积数据集》(Cumulative Kepler Object of Information dataset)中。研究中比较了四种基本机器学习模型:支持向量机(Support Vector Machines)、随机森林分类器(Random Forest Classifiers)、AdaBoost 和深度神经网络(Deep Neural Networks)。最终,AdaBoost 分类器被确定为最优模型,其 F-1 得分为 0.98,表现出优异的分类性能。