要約
数十年にわたり、惑星の同定は天文学者や研究者たちが専門的な設備を用いて行うものであった。しかし、計算手法の進展と宇宙探査ミッションから得られる衛星データへのアクセスが可能になったことで、この状況は変化した。例えば、NASAの系外惑星探査プログラムは、宇宙探査を支援するための天体に関する膨大なデータを提供している。その中でも特に注目されるミッションの一つがケプラー任務(Kepler mission)である。2007年のミッション開始以来、4000以上もの通過型系外惑星が同定されている。このミッションは、惑星のサイズ、恒星照射フラックス(insolation flux)、星の種類、公転周期といった物体のパラメータに応じた惑星出現率を計算するのに役立つ、広範な発見データベースを提供している。この情報を収録したデータセットは、「累積ケプラー天体情報データセット(Cumulative Kepler Object of Information dataset)」として整備されている。本研究では、4つの基本的なモデル——サポートベクターマシン(Support Vector Machines)、ランダムフォレスト分類器(Random Forest Classifiers)、AdaBoost、深層ニューラルネットワーク(Deep Neural Networks)——を比較検証した。その結果、最適な機械学習モデルとしてAdaBoost分類器が選ばれ、F-1スコアは0.98を達成した。