6ヶ月前

概要

ディープメトリック学習（Deep Metric Learning; DML）は、機械学習分野において長年にわたり注目を集めてきた重要な研究課題である。従来のアプローチは、一般的な画像データセット上で事前学習済みモデルの微調整に焦点を当ててきた。近年、より大規模なデータセットから学習された事前学習モデルの成功に伴い、局所的なデータドメインにおけるDMLタスクにモデルを適応しつつ、既に習得した知識を維持するという課題が顕在化している。本論文では、事前学習済みモデルをDMLタスクに効率的に微調整するためのパラメータ効率的な手法を検討する。特に、事前学習済みビジョントランスフォーマー（Vision Transformer; ViT）における視覚的プロンプト（Visual Prompts; VPT）の学習に基づく、新たな効果的なフレームワークを提案する。従来のプロキシベースDMLの枠組みを踏襲しつつ、入力画像およびViTから得られる意味情報を利用してプロキシを拡張し、各クラスごとに視覚的プロンプトを最適化する。我々は、意味情報を取り入れた新たな近似手法が、代表的な表現能力を上回ることを実証し、メトリック学習の性能向上に寄与することを示した。広範な実験を通じて、代表的なDMLベンチマークを用いて、提案フレームワークの有効性と効率性を検証した。特に、全パラメータのわずかな割合しか微調整しないにもかかわらず、最近の最先端のフル微調整手法と同等、あるいはそれ以上の性能を達成できることを示した。

ソースPDF