リアルタイムおよび汎用マルチタスクのためのYou Only Look at Once

高精度、軽量性、リアルタイム応答性は、自動運転を実現する上で3つの重要な要件です。本研究では、物体検出、走行可能領域のセグメンテーション、車線セグメンテーションの各タスクを同時に処理するために設計された適応的でリアルタイムかつ軽量な多タスクモデルであるA-YOLOM(Adaptive YOLO Multi-task)を導入しました。具体的には、統一的で効率的なセグメンテーション構造を持つエンドツーエンドの多タスクモデルを開発しました。セグメンテーションタスクにおいて、ネックとバックボーン間の特徴量を適応的に連結する学習可能なパラメータを導入し、すべてのセグメンテーションタスクに同じ損失関数を使用することで、カスタマイズの必要性を排除し、モデルの汎化能力を向上させました。また、パラメータ数と推論時間を削減するために、一連の畳み込み層のみから構成されるセグメンテーションヘッドも導入しました。BDD100kデータセットでの評価結果は競合他社と比較して優れており、特に可視化結果において顕著な成果を上げています。性能評価では、物体検出におけるmAP50が81.1%、走行可能領域のセグメンテーションにおけるmIoUが91.0%、車線セグメンテーションにおけるIoUが28.8%という競争力のある結果を得ました。さらに、実際のシナリオを用いてモデルの実世界での性能を評価したところ、競合他社に対して大幅に優れた結果が得られました。これにより、当社のモデルは競合他社と同等以上の性能を持ちつつも、より柔軟で高速であることが示されました。ソースコードおよび事前学習済みモデルは以下のURLで公開されています: https://github.com/JiayuanWang-JW/YOLOv8-multi-task