Command Palette
Search for a command to run...
オンラインチュートリアル | 物体検出は「グローバルアウェアネス」の時代へ:清華大学などがYOLOv13をリリース、速度と精度の両面で飛躍的な進歩を達成

自動運転、産業品質検査、セキュリティ監視など、「ミリ秒レベルの応答」が求められるアプリケーションにおいて、リアルタイム物体検出は依然として非常に困難な技術分野です。過去10年間、YOLOシリーズは軽量で効率的なアーキテクチャにより、この分野の主流ソリューションとなりました。初期のYOLOから最近のYOLOv11、YOLOv12に至るまで、このモデルは速度と精度の新たなバランスポイントを常に模索してきました。
しかし、何度も進化した後でも、YOLO シリーズの基盤となるメカニズムは、依然として共通のボトルネックに直面しています。畳み込みのように固定された受容野内での局所的な集約しか行えないか、自己注意のように受容野を拡張するかのいずれかであるが、計算コストが高いため、実際の展開では「地域化」する必要があり、真のグローバルな視点を失ってしまう。さらに重要なのは、自己注意は本質的には依然としてピクセルのペア間の関係をモデル化しており、「バイナリ相関」しか表現できないため、シーン内のより複雑な多対多のセマンティック構造を捉えることは困難です。これらの構造は、モデルが混雑したシーン、細かいオブジェクト、または非常に複雑な視覚的関係を理解するために重要です。
*受容野:視覚経路において、網膜上の光受容器(桿体細胞と錐体細胞)は光信号を受け取り、それを神経信号に変換し、視覚皮質の外側膝状体核細胞と神経節細胞に作用します。これらの神経節細胞の刺激領域は受容野と呼ばれます。感覚の種類によって、受容野の特性と大きさは異なります。
このため、従来の YOLO アーキテクチャでは、複雑なシナリオに直面したときにパフォーマンスのボトルネックが発生することが多く、長距離の依存関係を完全に理解できなかったり、スケールを超えた深い意味関係を表現するのに苦労したりします。
この長年の問題への対応として、清華大学、太原理工大学、西安交通大学などの大学からなる共同研究チームが、「相関モデリング」をバイナリから真の高次構造に拡張した新しい物体検出モデル YOLOv13 を提案しました。研究チームは、コアコンポーネントである HyperACE (ハイパーグラフベースの適応型相関強化) を導入しました。 HyperACE は、マルチスケール特徴マップ内のピクセルを頂点として扱い、学習可能なハイパーエッジ ビルディング ブロックを通じて頂点間の高次相関を適応的に探索します。次に、高次相関に基づく線形複雑性を持つ情報転送モジュールを用いて、マルチスケール特徴を効果的に集約し、複雑なシーンにおける視覚認識を実現します。さらに、HyperACEは低次相関モデリングも統合し、より包括的な視覚認識を実現します。
HyperACE を基にして、YOLOv13 はさらに FullPAD (Full-Pipeline Aggregation-and-Distribution) を提案しました。このモデルは、まず全体スケールで関連性強化を行い、強化された特徴を背骨、首、頭の各段階に分配することで、「高次セマンティクス」が検出プロセス全体にわたって実行されるようにし、勾配フローを改善して全体的なパフォーマンスを向上させます。さらに、著者らは従来の大規模な畳み込みカーネルをより軽量な深度分離型畳み込みモジュールに置き換え、精度を維持しながらパラメータと計算コストを削減しました。
最終結果は、小型モデル(Nシリーズ)から大型モデルまで、YOLOv13 は MS COCO を大幅に改善し、より少ないパラメータと FLOP で最先端の検出パフォーマンスを実現しました。その中で、YOLOv13-NはYOLOv11-Nと比較してmAPが3.01 TP3T向上し、YOLOv12-Nと比較して1.51 TP3T向上しました。
現在、「Yolov13のワンクリックデプロイ」チュートリアルは、HyperAIウェブサイトの「チュートリアル」セクションで公開されています。以下のリンクをクリックして、ワンクリックデプロイチュートリアルをお試しください⬇️
チュートリアルのリンク:
関連論文を見る:
デモの実行
1. hyper.ai ホームページにアクセスした後、「Yolov13 のワンクリック展開」を選択するか、「チュートリアル」ページに移動して「このチュートリアルをオンラインで実行」を選択します。



2. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。
注:ページの右上で言語を切り替えることができます。現在、中国語と英語が利用可能です。このチュートリアルでは英語で手順を説明します。

3. 「NVIDIA GeForce RTX 5090」と「PyTorch」のイメージを選択し、必要に応じて「Pay As You Go」または「Daily Plan/Weekly Plan/Monthly Plan」を選択し、「ジョブ実行を続行」をクリックします。


4. リソースの割り当てをお待ちください。最初のクローン作成には約3分かかります。ステータスが「実行中」に変わったら、「APIアドレス」の横にあるジャンプ矢印をクリックしてデモページに移動してください。

効果実証
デモ実行ページに入ったら、画像/ビデオをアップロードし、「オブジェクトの検出」をクリックしてデモを実行します。
パラメータの説明:
* モデル: yolov13n.pt (ナノ)、yolov13s.pt (小)、yolov13l.pt (大)、yolov13x.pt (特大)。一般的に、モデルが大きいほど精度 (mAP) は高くなりますが、パラメータ数、計算コスト (FLOP)、推論時間も長くなります。
* 信頼度しきい値:信頼度しきい値。
* IoU しきい値: NMS で使用される、IoU (Intersection over Union) しきい値。
* 画像あたりの最大検出数: 画像あたりの検出ボックスの最大数。
エディターは「yolov13s.pt」モデルをテストの例として使用し、その結果を以下に示します。

以上が今回HyperAIがおすすめするチュートリアルです。ぜひ皆さんも体験してみてください!
チュートリアルのリンク: