17日前

WILDS:実環境における分布シフトのベンチマーク

Pang Wei Koh, Shiori Sagawa, Henrik Marklund, Sang Michael Xie, Marvin Zhang, Akshay Balsubramani, Weihua Hu, Michihiro Yasunaga, Richard Lanas Phillips, Irena Gao, Tony Lee, Etienne David, Ian Stavness, Wei Guo, Berton A. Earnshaw, Imran S. Haque, Sara Beery, Jure Leskovec, Anshul Kundaje, Emma Pierson, Sergey Levine, Chelsea Finn, Percy Liang
WILDS:実環境における分布シフトのベンチマーク
要約

分布シフト(training分布とtest分布が異なる状況)は、実際の現場に導入された機械学習(ML)システムの精度を著しく低下させる要因となる。実世界の展開において広く見られるこれらの分布シフトは、現在のMLコミュニティで広く使われているデータセットにおいては十分に反映されていない。このギャップを埋めるために、我々は10のデータセットから構成されるキュレートされたベンチマーク「WILDS」を提案する。これらのデータセットは、腫瘍識別における病院間の分布シフト、野生生物監視におけるカメラトラップ間の分布シフト、および衛星画像や貧困マッピングにおける時空間にわたる分布シフトなど、実世界の応用で自然に生じる多様な分布シフトを反映している。各データセットにおいて、標準的な学習手法では分布外(out-of-distribution)の性能が分布内(in-distribution)の性能に比べて著しく低くなることを示した。また、既存の分布シフトに対処するための手法で訓練されたモデルであっても、この性能ギャップは依然として残っていることから、実際の現場で発生する分布シフトに対してより頑健なモデルを学習するための新たな手法の開発が不可欠であることが示された。手法の開発を促進するため、データセットの自動読み込み、デフォルトのモデルアーキテクチャとハイパーパラメータ、評価の標準化を含むオープンソースパッケージを提供している。コードおよびリーダーボードは、https://wilds.stanford.edu にて公開されている。