2달 전
커뮤니티 주도의 머신 러닝 전략 공간 탐색을 통한 NMR 특성 예측 모델 찾기
Lars A. Bratholm; Will Gerrard; Brandon Anderson; Shaojie Bai; Sunghwan Choi; Lam Dang; Pavel Hanchar; Addison Howard; Guillaume Huard; Sanghoon Kim; Zico Kolter; Risi Kondor; Mordechai Kornbluth; Youhan Lee; Youngsoo Lee; Jonathan P. Mailoa; Thanh Tu Nguyen; Milos Popovic; Goran Rakocevic; Walter Reade; Wonho Song; Luka Stojanovic; Erik H. Thiede; Nebojsa Tijanic; Andres Torrubia; Devin Willmott; Craig P. Butts; David R. Glowacki; Kaggle participants

초록
기계 학습(ML)의 발전은 데이터를 활용하여 과학적 예측을 하는 잠재적인 전략들의 폭발적인 증가를 가져왔습니다. 특정 분야에 ML 전략을 적용하려는 물리과학자들에게는 사전에 어떤 전략을 채택할지 평가하는 것이 어려울 수 있습니다. 여기서 우리는 온라인 커뮤니티의 힘을 이용해 ML 전략 공간을 집단적으로 탐색하고, 분자 내 원자 쌍 간 핵 자기 공명(NMR) 특성을 예측하기 위한 알고리즘을 개발한 결과를 요약합니다. 오픈 소스 데이터셋을 사용하여, 우리는 Kaggle과 협력하여 3개월간의 경진대회를 설계하고 개최하였습니다. 이 대회에는 84개국에서 2,700개 팀이 참여하여 47,800건의 ML 모델 예측을 제출했습니다. 3주 이내에 Kaggle 커뮤니티는 우리 기존의 '사내' 노력과 유사한 정확도를 가진 모델들을 생성하였습니다. 상위 예측들의 선형 조합으로 구성된 메타 앙상블 모델은 어떤 개별 모델보다도 뛰어난 예측 정확도를 보였으며, 기존 최고 수준의 성능보다 7-19배 더 우수했습니다. 이러한 결과들은 양자역학(QM) 분자 특성을 예측하는 데 트랜스포머 구조의 잠재력을 강조합니다.