ObjectNet:物体認識モデルの限界を押し広げるための大規模バイアス制御データセット

我々は、物体の背景、回転、撮影視点をランダムに制御した物体認識用の大規模な現実世界テストデータセット「ObjectNet」を構築した。科学的実験では、被験者がデータ内の単純な相関関係に依存してタスクを遂行できないようにするため、多くの場合、バイアスや混同要因(confounds)をデータから排除する制御が施される。しかし、歴史的に見て、大規模な機械学習およびコンピュータビジョン用データセットは、このような制御を欠いてきた。その結果、モデルは新しいデータセットに対して微調整(fine-tuning)が必要となり、ベンチマーク上では良好な性能を発揮するが、実世界の応用ではその性能が低下する傾向にある。ObjectNetで評価した際、物体検出モデルは他のベンチマークにおける性能と比較して40~45%の性能低下を示した。これは、バイアスに対する制御が効果的に導入されているためである。こうした制御により、ObjectNetは微調整に対して頑健であり、性能の上昇はわずかにとどまる。本研究では、クラウドソーシングを活用して画像の撮影とアノテーションを高度に自動化するプラットフォームを開発した。ObjectNetはImageNetのテストセットと同等の規模(5万枚の画像)であり、一般化を促進するため、意図的にトレーニングセットを付属させない設計となっている。このデータセットは、物体が中心に配置され、遮蔽されにくいという点でImageNetより易しい一方で、制御の導入により難易度が高くなっている。本研究では物体認識に焦点を当てているが、自動化ツールを用いることで、機械学習全般にわたり、制御付きの大規模データセットを収集することが可能である。これにより、モデルが新たな方法で評価され、研究者にとって貴重なフィードバックが得られる。本研究は、一般化可能で頑健かつ人間の視覚に類似したコンピュータビジョンの研究を推進する新たな道を開き、実世界での性能を予測可能なデータセットの構築に貢献する。