6ヶ月前

オブジェクト検出

オブジェクト認識

アプローチ／フレームワーク

コンピュータビジョン

Yuxin Fang Bencheng Liao Xinggang Wang Jiemin Fang Jiyang Qi Rui Wu Jianwei Niu Wenyu Liu

概要

Transformerは、2次元空間構造に関する最小限の知識を前提として、純粋なシーケンス・トゥ・シーケンスの視点から2次元物体および領域レベルの認識を実現できるだろうか？この問いに答えるために、我々は、基本的なビジョン・Transformer（Vision Transformer）をベースとし、可能な限り少ない修正、領域事前知識、およびタスク固有の誘導的バイアス（inductive biases）を用いた物体検出モデル群である「You Only Look at One Sequence（YOLOS）」を提案する。本研究では、中規模のImageNet-1kデータセットで事前学習されたYOLOSは、挑戦的なCOCO物体検出ベンチマークにおいてすでに非常に競争力のある性能を示すことがわかった。例えば、BERT-Baseアーキテクチャから直接採用されたYOLOS-Baseは、COCOの検証セットで42.0のボックスAP（box AP）を達成した。さらに、YOLOSを通じて、Transformerモデルが視覚タスクにおいて現在の事前学習スキームおよびモデルスケーリング戦略がもたらす影響と限界についても議論する。コードおよび事前学習済みモデルは、https://github.com/hustvl/YOLOS にて公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

オブジェクト検出

オブジェクト認識

アプローチ／フレームワーク

コンピュータビジョン

Yuxin Fang Bencheng Liao Xinggang Wang Jiemin Fang Jiyang Qi Rui Wu Jianwei Niu Wenyu Liu

概要

Transformerは、2次元空間構造に関する最小限の知識を前提として、純粋なシーケンス・トゥ・シーケンスの視点から2次元物体および領域レベルの認識を実現できるだろうか？この問いに答えるために、我々は、基本的なビジョン・Transformer（Vision Transformer）をベースとし、可能な限り少ない修正、領域事前知識、およびタスク固有の誘導的バイアス（inductive biases）を用いた物体検出モデル群である「You Only Look at One Sequence（YOLOS）」を提案する。本研究では、中規模のImageNet-1kデータセットで事前学習されたYOLOSは、挑戦的なCOCO物体検出ベンチマークにおいてすでに非常に競争力のある性能を示すことがわかった。例えば、BERT-Baseアーキテクチャから直接採用されたYOLOS-Baseは、COCOの検証セットで42.0のボックスAP（box AP）を達成した。さらに、YOLOSを通じて、Transformerモデルが視覚タスクにおいて現在の事前学習スキームおよびモデルスケーリング戦略がもたらす影響と限界についても議論する。コードおよび事前学習済みモデルは、https://github.com/hustvl/YOLOS にて公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

あなたが一度のシーケンスだけを見るべきである：オブジェクト検出を通じたビジョンにおけるTransformerの再考 | 記事 | HyperAI超神経