15日前
世界規模の生物多様性評価への一歩:BIOSCAN-1M 昆虫データセット
Zahra Gharaee, ZeMing Gong, Nicholas Pellegrino, Iuliia Zarubiieva, Joakim Bruslund Haurum, Scott C. Lowe, Jaclyn T.A. McKeown, Chris C.Y. Ho, Joschka McLeod, Yi-Yun C Wei, Jireh Agda, Sujeevan Ratnasingham, Dirk Steinke, Angel X. Chang, Graham W. Taylor, Paul Fieguth

要約
昆虫の生物多様性を体系的に把握するため、本研究では手動ラベル付けされた昆虫画像から構成される新たな大規模データセット「BIOSCAN-Insect Dataset」を提案する。各データレコードは専門家による系統分類によってラベル付けされており、さらに核酸バーコード配列の原始データおよび割り当てられたバーコードインデックス番号といった遺伝情報が付随している。これらの遺伝情報は、種分類のための遺伝的代理指標として機能する。本論文では、画像に基づく系統分類評価を可能にするコンピュータビジョンモデルの訓練を主目的として、100万枚以上の画像からなるキュレートされたデータセットを提示する。同時に、このデータセットは機械学習コミュニティ全体にとっても注目すべき特徴を備えており、その分析は広範な研究意義を持つ。データセットの生物学的性質に起因して、クラスの分布が著しく不均衡な「長尾分布(long-tailed distribution)」を示す。さらに、系統ラベル付けは階層的な分類体系であり、特に下位レベルでは極めて細分化された分類問題が生じる。このデータセットを通じて、機械学習コミュニティにおける生物多様性研究への関心を喚起するだけでなく、画像に基づく系統分類器の開発は、BIOSCAN研究の最終目的である「地球規模の生物多様性調査の基盤構築」を前進させるものとなる。本論文では、このデータセットの概要を紹介し、ベースライン分類器の実装と分析を通じて分類タスクの特性を探求する。