16日前

バンブー：人間と機械の協働によるメガスケール視覚データセットの継続的構築

Yuanhan Zhang, Qinghong Sun, Yichun Zhou, Zexin He, Zhenfei Yin, Kun Wang, Lu Sheng, Yu Qiao, Jing Shao, Ziwei Liu

要約

大規模なデータセットはコンピュータビジョンにおいて極めて重要な役割を果たしている。しかし、現行のデータセットはサンプルの差異を考慮せずに一括してラベル付けされているため、データ収集の効率性が低く、スケーラビリティに欠ける。そこで、いかに能動的にマグアスケールのデータセットを構築するかという課題が残されている。先進的なアクティブラーニングアルゴリズムがその答えとなる可能性があるが、本研究では現実のラベル付け環境において分布外（out-of-distribution）データが広範に存在する状況下で、既存の手法が著しく効果を発揮しないことを実験的に確認した。本研究では、現実的なデータラベル付けを想定した新たなアクティブラーニングフレームワークを提案する。このフレームワークを活用して、高品質な視覚データセット「Bamboo」を構築した。Bambooは、119,000クラスを含む6900万件の画像分類ラベルと、809クラスを含む2800万件の物体バウンディングボックスラベルを備えている。これらのクラスは、複数の知識ベースから統合された階層的分類体系に基づいて体系的に整理されている。分類タスクにおけるラベル数はImageNet22Kの4倍、検出タスクではObject365の3倍に相当する。ImageNet22KおよびObject365と比較して、Bambooで事前学習したモデルは、さまざまな下流タスクにおいて優れた性能を示しており、分類では6.2%、検出では2.1%の性能向上を達成した。本研究は、今後の研究において、提案するアクティブラーニングフレームワークおよびBambooデータセットが不可欠であると考えている。