HyperAIHyperAI

Command Palette

Search for a command to run...

クラス非依存の物体検出に向けたマルチモーダル変換器の利用

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan Rao Muhammad Anwer Ming-Hsuan Yang

概要

物体とは何か?これはコンピュータビジョンにおける長年の問いであり続けています。この目標に向けて、学習を必要としないアプローチや学習に基づくアプローチが数多く開発され、物体性のスコアリングに利用されてきました。しかし、これらの手法は一般的に新しいドメインや未知の物体に対してスケーラビリティが十分ではありません。本論文では、既存の手法が人間が理解できる意味論によって統治されるトップダウンの監督信号を欠いていることを指摘します。文献で初めて、画像-テキスト対応データで訓練されたマルチモーダルビジョントランスフォーマー(MViT)がこのギャップを効果的に埋められることを示します。我々の多岐にわたるドメインや未知の物体に対する広範な実験結果は、MViTが画像中の一般的な物体を局所化する上で最先端の性能を達成していることを示しています。既存のMViTがマルチスケール特徴処理を含まないことが多く、通常より長いトレーニング期間を必要とするという観察に基づき、マルチスケール変形注意機構と遅延ビジョン言語融合を使用した効率的なMViTアーキテクチャを開発しました。我々はオープンワールドオブジェクト検出、注目すべき物体検出およびカモフラージュ物体検出、教師ありおよび自己教師あり検出タスクなど、多様なアプリケーションにおいてMViT提案の重要性を示しています。さらに、MViTは特定の言語クエリに基づいて適応的に提案を生成することができ、これにより相互作用性が向上します。コード: \url{https://git.io/J1HPY}


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
クラス非依存の物体検出に向けたマルチモーダル変換器の利用 | 記事 | HyperAI超神経