15일 전
세계적 생물다양성 평가를 향한 한 걸음: BIOSCAN-1M 곤충 데이터셋
Zahra Gharaee, ZeMing Gong, Nicholas Pellegrino, Iuliia Zarubiieva, Joakim Bruslund Haurum, Scott C. Lowe, Jaclyn T.A. McKeown, Chris C.Y. Ho, Joschka McLeod, Yi-Yun C Wei, Jireh Agda, Sujeevan Ratnasingham, Dirk Steinke, Angel X. Chang, Graham W. Taylor, Paul Fieguth

초록
곤충 생물다양성의 체계적 기록을 위해 우리는 새로운 대규모 수작업 레이블링된 곤충 이미지 데이터셋인 BIOSCAN-Insect 데이터셋을 제안한다. 각 데이터 항목은 전문가에 의해 분류된 분류학적 정보를 보유하며, 유전적 정보도 포함하고 있다. 이 유전적 정보에는 원시 핵산 염기 서열(바코드 서열)과 할당된 바코드 인덱스 번호가 포함되어 있으며, 이는 종 분류를 위한 유전학적 대표 지표이다. 본 논문에서는 컴퓨터 비전 모델을 훈련시켜 이미지 기반의 분류학적 평가를 수행할 수 있도록 하기 위해 주로 활용될 수 있는 수백만 장의 이미지로 구성된 정제된 데이터셋을 제시한다. 그러나 이 데이터셋은 기계학습 공동체 전체의 관심을 끌 만한 흥미로운 특징도 지니고 있다. 데이터셋 자체의 생물학적 특성에 따라, 매우 긴 꼬리 형태의 클래스 불균형 분포가 나타나며, 분류학적 레이블링은 계층적 분류 체계를 따르므로, 하위 레벨에서는 매우 세밀한 분류 문제를 제기한다. 기계학습 공동체 내에서 생물다양성 연구에 대한 관심을 촉진할 뿐만 아니라, 이미지 기반의 분류자 개발의 진전은 BIOSCAN 연구의 궁극적 목표인 전 세계 생물다양성에 대한 포괄적인 조사 기반을 마련하는 데 기여할 것이다. 본 논문에서는 이 데이터셋을 소개하고, 베이스라인 분류기의 구현 및 분석을 통해 분류 과제를 탐구한다.