17日前

動的メトリック学習:複数の意味スケールを扱えるスケーラブルなメトリック空間へ

Yifan Sun, Yuke Zhu, Yuhan Zhang, Pengkun Zheng, Xi Qiu, Chi Zhang, Yichen Wei
動的メトリック学習:複数の意味スケールを扱えるスケーラブルなメトリック空間へ
要約

本稿では、実世界の計測ツールにおける基本的特性である「動的範囲(dynamic range)」を、深層視覚認識分野に導入する新しいアプローチを提案する。計測学において、動的範囲は計測ツールの基本的品質であり、さまざまなスケールに対応する柔軟性を示す。動的範囲が大きいほど、その柔軟性は高くなる。視覚認識の分野においても、複数スケール問題は依然として存在する。異なる視覚的概念は、それぞれ異なる意味論的スケールを持つことがある。例えば、「動物(Animal)」や「植物(Plants)」は広い意味論的スケールを持つ一方で、「エルク(Elk)」ははるかに狭いスケールを持つ。小さな意味論的スケールにおいて、2匹の異なるエルクは互いに非常に「異なる」ように見える可能性がある。しかし、広い意味論的スケール(例:動物と植物)では、これらの2匹のエルクは「類似」として評価されるべきである。我々は、このような柔軟性が深層計測学(deep metric learning)にとっても重要であると主張する。なぜなら、異なる視覚的概念は実際には異なる意味論的スケールに対応しているからである。本研究では、深層計測学に動的範囲を導入することで、新たなコンピュータビジョンの課題である「動的計測学習(Dynamic Metric Learning)」を提案する。このタスクの目的は、複数の意味論的スケールにわたる視覚的概念を適切に扱えるスケーラブルな計測空間を学習することにある。車両、動物、オンライン商品の3種類の画像を用いて、動的計測学習用の3つのデータセットを構築した。代表的な深層計測学習手法を用いてこれらのデータセットをベンチマークした結果、動的計測学習は非常に挑戦的な課題であることが明らかになった。主な困難は、異なるスケール間での矛盾にある。小さなスケールでの識別能力が高まると、大きなスケールでの識別能力が低下しやすく、逆もまた然りである。副次的な貢献として、この矛盾を緩和するための「スケール間学習(Cross-Scale Learning, CSL)」を提案する。実験の結果、CSLは3つのすべてのデータセットにおいて、ベースライン性能を一貫して向上させることを示した。本研究で作成したデータセットおよび実装コードは、https://github.com/SupetZYK/DynamicMetricLearning にて公開される予定である。

動的メトリック学習:複数の意味スケールを扱えるスケーラブルなメトリック空間へ | 最新論文 | HyperAI超神経