Google Landmarks Dataset v2 ―― インスタンスレベル認識およびリtrievalのための大規模ベンチマーク

画像検索およびインスタンス認識技術は急速に進展しているが、それらの性能を正確に測定しつつ、実用応用においても意味のある新たな課題を提示する、挑戦的なデータセットの必要性が高まっている。本研究では、人為的および自然なランドマークの分野における大規模かつ細粒度なインスタンス認識および画像検索のための新基準として、Google Landmarks Dataset v2(GLDv2)を紹介する。GLDv2は、これまでにない規模で、500万枚以上の画像と20万件の異なるインスタンスラベルを含んでおり、現時点で最も大きな同種のデータセットである。テストセットは11万8千枚の画像から構成され、検索および認識の両タスクにおいて真値アノテーションが付与されている。真値の構築には、800時間以上の人的アノテーション作業が費やされた。本データセットは、従来のデータセットでは考慮されていなかった、現実世界の応用に由来する幾つかの困難な特性を備えている:極端に長いテールを持つクラス分布、多数のドメイン外テスト画像、およびクラス内での大きな変動性。データは、世界最大のクラウドソーシング型ランドマーク画像コレクションであるWikimedia Commonsから収集された。また、最先端の手法に基づく認識および検索タスクのベースライン結果、および公開チャレンジからの競争力のある成果も提供している。さらに、本データセットが転移学習に適していることを示すために、本データセットで学習された画像埋め込みが独立したデータセットにおいて競争力のある検索性能を達成することを実証した。データセットの画像、真値アノテーション、評価スコアリングコードは、https://github.com/cvdfoundation/google-landmark にて公開されている。