HyperAIHyperAI

Command Palette

Search for a command to run...

左右の区別:幾何学的に意識した意味対応の特定

Junyi Zhang† Charles Herrmann‡ Junhwa Hur‡ Eric Chen§ Varun Jampani¶ Deqing Sun† * Ming-Hsuan Yang†.§ *

概要

事前学習された大規模ビジョンモデルは、意味対応において著しい可能性を示していますが、これらの特徴量はしばしばインスタンスの幾何学的形状と向きを捉えるのに苦労します。本論文では、意味対応において幾何学的な意識を持つことの重要性を指摘し、現行の基盤モデルの特徴量が単純な後処理下で持つ制限を明らかにしました。私たちは、この情報を組み込むことで、ゼロショット設定および教師あり設定の両方で単純ながら効果的な解決策により、意味対応性能が大幅に向上することを示しました。また、既存の動物姿勢推定データセットから構築した新しい挑戦的なベンチマークを提案し、事前学習とモデル検証の両方に使用しています。私たちの手法は、困難なSPair-71kデータセット上で[email protected]スコアで65.4(ゼロショット)および85.6(教師あり)を達成し、それぞれ5.5ポイントおよび11.0ポイントの絶対的な改善幅で最先端技術を上回りました。私たちのコードとデータセットは公開されており、以下のURLからアクセスできます: https://telling-left-from-right.github.io/


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています