HyperAIHyperAI

Command Palette

Search for a command to run...

OvarNet: オープンボキャブラリオブジェクト属性認識へ向けた研究

Keyan Chen; Xiaolong Jiang; Yao Hu; Xu Tang; Yan Gao; Jianqi Chen; Weidi Xie

概要

本論文では、画像内の物体を検出するとともにその視覚的属性を推論する問題について考察します。特に、学習段階で手動アノテーションが提供されていない物体に対しても対応し、オープンボキャブラリシナリオに類似した状況での検出と推論を目指します。この目標を達成するために、以下の貢献を行います:(i) オープンボキャブラリの物体検出と属性分類のための単純な二段階アプローチであるCLIP-Attr(クリップ・アトラ)から始めます。まず、オフラインRPN(Region Proposal Network)を使用して候補物体を提案し、その後、意味的なカテゴリと属性に分類します。(ii) 利用可能なすべてのデータセットを組み合わせ、連邦学習戦略を利用してCLIPモデルの微調整を行い、視覚表現と属性との整合性を図ります。さらに、弱教師あり学習下で自由に利用できるオンライン画像-キャプションペアの効果を調査します。(iii) 効率性追求のために、クラス非依存の物体提案と意味的なカテゴリおよび属性の分類を行うFaster-RCNNタイプのモデルをエンドツーエンドで知識蒸留により訓練します。このモデルはテキストエンコーダーから生成された分類器を使用します。(iv) 最後に、VAW、MS-COCO、LSA、OVADデータセット上で広範な実験を行い、意味的なカテゴリと属性の認識が視覚シーン理解において相補的であることを示します。すなわち、物体検出と属性予測を独立して扱う既存手法よりも大幅に優れた性能を発揮することを確認し、新しい属性やカテゴリに対する強い汎化能力を持つことを証明しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています