HyperAIHyperAI

Command Palette

Search for a command to run...

あなたが一度のシーケンスだけを見るべきである:オブジェクト検出を通じたビジョンにおけるTransformerの再考

Yuxin Fang Bencheng Liao Xinggang Wang Jiemin Fang Jiyang Qi Rui Wu Jianwei Niu Wenyu Liu

概要

Transformerは、2次元空間構造に関する最小限の知識を前提として、純粋なシーケンス・トゥ・シーケンスの視点から2次元物体および領域レベルの認識を実現できるだろうか?この問いに答えるために、我々は、基本的なビジョン・Transformer(Vision Transformer)をベースとし、可能な限り少ない修正、領域事前知識、およびタスク固有の誘導的バイアス(inductive biases)を用いた物体検出モデル群である「You Only Look at One Sequence(YOLOS)」を提案する。本研究では、中規模のImageNet-1kデータセットで事前学習されたYOLOSは、挑戦的なCOCO物体検出ベンチマークにおいてすでに非常に競争力のある性能を示すことがわかった。例えば、BERT-Baseアーキテクチャから直接採用されたYOLOS-Baseは、COCOの検証セットで42.0のボックスAP(box AP)を達成した。さらに、YOLOSを通じて、Transformerモデルが視覚タスクにおいて現在の事前学習スキームおよびモデルスケーリング戦略がもたらす影響と限界についても議論する。コードおよび事前学習済みモデルは、https://github.com/hustvl/YOLOS にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています