新ツール「DataSAIL」、訓練データとテストデータの自動分離でAI評価を向上 Friedrich-Alexander-Universität Erlangen-Nürnberg(FAU)とヘルムホルツ・インSTITUTEトゥ・フュール・アーメダミンター・フォorschング・ザールラント(HIPS)のバイオインフォマティシャンが開発した新ツール「DataSAIL」は、訓練データとテストデータを最大限に異なるものに自動的に分類します。これにより、AIモデルが未知のデータ(いわゆる分布外データ)に対しても信頼性を持って動作するかどうかをより正確に評価することが可能になります。DataSAILは自由に利用でき、生物研究だけでなくあらゆる種類のデータに適用可能です。また、薬物相互作用データの自動分類にも初めて対応しています。
新たに開発されたツール「DataSAIL」により、AIモデルの性能評価が大幅に改善されると期待されています。この工具は、フライドリヒ・アレクサンダー大学エルランゲン・ニュルンベルク(FAU)およびヘルマンツ研究所ザールランド(HIPS)のバイオインフォマティシャンによって開発されました。DataSAILは、トレーニングデータとテストデータを自動的に分類し、互いに可能な限り差異化することで、AIモデルが異なるデータ(未知の分布データ)に対して信頼性を持った動作を行うかどうかを評価します。 機械学習モデルは大量のデータで訓練され、実際の使用前にテストされる必要があります。このため、データは大規模なトレーニングセットと小規模なテストセットに分割されます。トレーニングセットはモデルの学習に使用され、テストセットはその信頼性を検証するために使われます。「データが大きな違いを持つように分割されなければ、モデルが新規データに対する適応能力を示すかどうかの評価は正確に行えません」と、FAU人工知能・医用工学部門のデビッド・ブラームンタール教授は述べています。従来のアルゴリズムではこの最適なデータ分割が難しいことが多いため、AIモデルの性能はしばしば過評価されていました。 DataSAILは、このような誤評価を防ぎ、機械学習の重要な分野で新しい基準を設けることを目指して開発されました。ユーザーはデータセットにいくつかのパラメータを定義するだけで、DataSAILが残りを自動的かつ一貫して処理します。この工具は、生物学研究だけでなくすべてのタイプのデータに利用可能で、無料で配布されています。「ユーザーはデータセットに必要なパラメータのみを定義すれば、DataSAILが残りの部分を自動的かつ一貫して処理します」とブラームンタール教授は解説しています。 また、DataSAILは相互作用データの自動分割にも初めて対応しました。これは、薬物研究などで複雑な多次元データの分割に必要となります。「例えば、薬物と標的たんぱく質との相互作用を予測するAIモデルを開発するとします。こうしたモデルのテストでは、変更された薬物分子と異なるたんぱく質についての評価が必要です」と、ブラームンタール教授は説明しています。さらに、クラス特性の考慮も行われ、男性と女性の被験者がトレーニングデータとテストデータに均等に分配されるようにすることが可能です。これにより、モデルのテスト結果が特定の性別に偏 erfolgreく防止されます。 今後、DataSAILはさらに発展し、アルゴリズムの実行時間を短縮するとともに、さまざまな実用的な状況に適合するようデータをより精密に準備することが計画されています。 産業界での反応は非常に積極的で、「AIの性能評価において透明性と信頼性を高める有力な手段となる」と多くの専門家が評価しています。FAUは、医学および工学分野における人工知能の先駆けとして、革新的な研究を続けています。