HyperAI超神経

自動運転、産業品質検査、セキュリティ監視など、「ミリ秒レベルの応答」が求められるアプリケーションにおいて、リアルタイム物体検出は依然として非常に困難な技術分野です。過去10年間、YOLOシリーズは軽量で効率的なアーキテクチャにより、この分野の主流ソリューションとなりました。初期のYOLOから最近のYOLOv11、YOLOv12に至るまで、このモデルは速度と精度の新たなバランスポイントを常に模索してきました。

しかし、何度も進化した後でも、YOLO シリーズの基盤となるメカニズムは、依然として共通のボトルネックに直面しています。畳み込みのように固定された受容野内での局所的な集約しか行えないか、自己注意のように受容野を拡張するかのいずれかであるが、計算コストが高いため、実際の展開では「地域化」する必要があり、真のグローバルな視点を失ってしまう。さらに重要なのは、自己注意は本質的には依然としてピクセルのペア間の関係をモデル化しており、「バイナリ相関」しか表現できないため、シーン内のより複雑な多対多のセマンティック構造を捉えることは困難です。これらの構造は、モデルが混雑したシーン、細かいオブジェクト、または非常に複雑な視覚的関係を理解するために重要です。

*受容野：視覚経路において、網膜上の光受容器（桿体細胞と錐体細胞）は光信号を受け取り、それを神経信号に変換し、視覚皮質の外側膝状体核細胞と神経節細胞に作用します。これらの神経節細胞の刺激領域は受容野と呼ばれます。感覚の種類によって、受容野の特性と大きさは異なります。

このため、従来の YOLO アーキテクチャでは、複雑なシナリオに直面したときにパフォーマンスのボトルネックが発生することが多く、長距離の依存関係を完全に理解できなかったり、スケールを超えた深い意味関係を表現するのに苦労したりします。

この長年の問題への対応として、清華大学、太原理工大学、西安交通大学などの大学からなる共同研究チームが、「相関モデリング」をバイナリから真の高次構造に拡張した新しい物体検出モデル YOLOv13 を提案しました。研究チームは、コアコンポーネントである HyperACE (ハイパーグラフベースの適応型相関強化) を導入しました。 HyperACE は、マルチスケール特徴マップ内のピクセルを頂点として扱い、学習可能なハイパーエッジビルディングブロックを通じて頂点間の高次相関を適応的に探索します。次に、高次相関に基づく線形複雑性を持つ情報転送モジュールを用いて、マルチスケール特徴を効果的に集約し、複雑なシーンにおける視覚認識を実現します。さらに、HyperACEは低次相関モデリングも統合し、より包括的な視覚認識を実現します。

HyperACE を基にして、YOLOv13 はさらに FullPAD (Full-Pipeline Aggregation-and-Distribution) を提案しました。このモデルは、まず全体スケールで関連性強化を行い、強化された特徴を背骨、首、頭の各段階に分配することで、「高次セマンティクス」が検出プロセス全体にわたって実行されるようにし、勾配フローを改善して全体的なパフォーマンスを向上させます。さらに、著者らは従来の大規模な畳み込みカーネルをより軽量な深度分離型畳み込みモジュールに置き換え、精度を維持しながらパラメータと計算コストを削減しました。

最終結果は、小型モデル（Nシリーズ）から大型モデルまで、YOLOv13 は MS COCO を大幅に改善し、より少ないパラメータと FLOP で最先端の検出パフォーマンスを実現しました。その中で、YOLOv13-NはYOLOv11-Nと比較してmAPが3.01 TP3T向上し、YOLOv12-Nと比較して1.51 TP3T向上しました。

現在、「Yolov13のワンクリックデプロイ」チュートリアルは、HyperAIウェブサイトの「チュートリアル」セクションで公開されています。以下のリンクをクリックして、ワンクリックデプロイチュートリアルをお試しください⬇️

チュートリアルのリンク:

https://go.hyper.ai/EHfXY

関連論文を見る:

https://go.hyper.ai/Gzu7K