Command Palette
Search for a command to run...
Moshe Kimhi Erez Koifman Ehud Rivlin Eli Schwartz Chaim Baskin

要約
本稿では、ウェーブレットに基づくトークン化により、CLIPにおける適応的解像度推論を実現する単一の統合モデル「WAVECLIP」を提案する。WAVECLIPは、標準的なパッチ埋め込みを多段階ウェーブレット分解に置き換えることで、画像を粗い解像度から細かい解像度へと段階的に処理する能力を備え、同一モデル内で複数の解像度を自然にサポートする。推論時、モデルは低解像度のトークンから開始し、必要に応じてのみ精細化を行う。この際、キーバリューのキャッシュと因果的クロスレベルアテンションを用いて計算を再利用することで、必要な場合にのみ新しい情報をモデルに導入する効率的な仕組みを実現している。ゼロショット分類における評価では、単純な信頼度ベースのゲーティング機構により、適応的な早期終了が可能であることを示した。これにより、単一のデプロイモデルを用いて、ユーザーが計算量と精度のトレードオフを動的に選択できる。本手法は、固定されたCLIP教師モデルからの軽量な知識蒸留のみを要し、競争力のある精度を達成しつつ、顕著な計算コストの削減を実現している。