Command Palette
Search for a command to run...
マトリョーシカ表現学習
マトリョーシカ表現学習
概要
学習された表現(learned representations)は、現代の機械学習システムにおいて、さまざまな下流タスクを支える中心的な要素である。このような表現の学習において、各下流タスクにおける計算リソースや統計的制約が事前に不明であることは一般的である。この文脈において、容量が固定された硬直的な表現は、タスクに応じて過剰に設計されたり、不足したりする可能性がある。この問題に対し、我々は以下の問いを提起する:異なる計算リソースを備えた複数の下流タスクに適応可能な柔軟な表現を設計することは可能だろうか?本研究の主な貢献は、「マトリョーシカ表現学習(Matryoshka Representation Learning, MRL)」の提案である。MRLは、異なる粒度で情報を符号化する能力を備え、一つの埋め込み表現(embedding)が下流タスクの計算制約に柔軟に適応できるようにする。MRLは既存の表現学習パイプラインを最小限に修正し、推論やデプロイ時に追加コストを発生させない。また、MRLは粗い表現から細かい表現へと段階的に学習するアーキテクチャを採用しており、独立して学習された低次元表現と同等以上に精度と豊かさを実現する。学習されたマトリョーシカ表現が提供する柔軟性により、以下の利点が得られる:(a)ImageNet-1K分類において、同等の精度を維持しながら埋め込みサイズを最大14倍小さくできる;(b)ImageNet-1Kおよび4Kの大規模検索タスクにおいて、実世界の実行速度を最大14倍向上可能;(c)長尾少数ショット分類において、最大2%の精度向上が達成可能でありながら、元の表現と同等のロバスト性を維持する。さらに、MRLが視覚(ViT、ResNet)、視覚+言語(ALIGN)、言語(BERT)といった多様なモダリティにわたり、Web規模のデータセット(ImageNet、JFT)へとスムーズに拡張可能であることを示した。MRLの実装コードおよび事前学習済みモデルは、https://github.com/RAIVNLab/MRL にてオープンソースとして公開されている。