17日前

エンドツーエンド型ラン検出におけるワンツーセバラトランスフォーマー

Kunyang Zhou, Rui Zhou
エンドツーエンド型ラン検出におけるワンツーセバラトランスフォーマー
要約

道路線検出手法は実世界のシナリオにおいて優れた性能を示しているが、大多数の手法は後処理を必要とし、その耐障害性が十分でない。これに対し、エンドツーエンド検出器としてDEtection TRansformer(DETR)が道路線検出に導入されている。しかし、DETRにおける1対1のラベル割当は、ラベルの意味的衝突により学習効率を低下させる問題がある。さらに、DETRにおける位置クエリは明確な位置事前知識を提供できないため、最適化が困難である。本論文では、1対複数のTransformer(O2SFormer)を提案する。まず、1対多と1対1のラベル割当を統合する「1対複数ラベル割当」を提案し、ラベルの意味的衝突を解消しつつエンドツーエンド検出を維持する。また、1対1割当の最適化の難しさを克服するため、各デコーダ層における正例となる道路アンカーの正例重みを動的に調整する「レイヤーごとのソフトラベル」を導入する。さらに、道路アンカーを位置クエリに組み込むことで、位置事前知識を探索する「動的アンカーに基づく位置クエリ」を設計した。実験の結果、ResNet50をバックボーンとして用いたO2SFormerはCULaneデータセットにおいて77.83%のF1スコアを達成し、既存のTransformerベースおよびCNNベースの検出器を上回った。さらに、ResNet18をバックボーンとした場合、DETRに比べて学習収束が12.5倍速くなった。

エンドツーエンド型ラン検出におけるワンツーセバラトランスフォーマー | 最新論文 | HyperAI超神経