HyperAIHyperAI
il y a 17 jours

Détection de lignes bout-en-bout basée sur un Transformer un-à-plusieurs

Kunyang Zhou, Rui Zhou
Détection de lignes bout-en-bout basée sur un Transformer un-à-plusieurs
Résumé

Bien que les méthodes de détection de lignes aient démontré des performances impressionnantes dans des scénarios du monde réel, la plupart d’entre elles nécessitent un post-traitement qui n’est pas suffisamment robuste. En conséquence, des détecteurs end-to-end tels que DETR (Detection Transformer) ont été introduits dans le domaine de la détection de lignes. Toutefois, l’attribution un à un des étiquettes dans DETR peut nuire à l’efficacité d’entraînement en raison de conflits sémantiques entre étiquettes. Par ailleurs, les requêtes de position dans DETR ne fournissent pas de priori positionnel explicite, ce qui rend leur optimisation difficile. Dans cet article, nous proposons O2SFormer (One-to-Several Transformer). Nous introduisons tout d’abord une stratégie d’attribution un à plusieurs, qui combine les approches un à plusieurs et un à un afin de résoudre les conflits sémantiques tout en préservant la détection end-to-end. Pour surmonter les difficultés liées à l’optimisation de l’attribution un à un, nous proposons également une étiquette douce progressive par couche, qui ajuste dynamiquement le poids positif des ancres de lignes positives à différentes couches du décodeur. Enfin, nous concevons une requête de position basée sur des ancres dynamiques, permettant d’exploiter un prior positionnel en intégrant les ancres de lignes dans les requêtes de position. Les résultats expérimentaux montrent que O2SFormer, avec un squelette ResNet50, atteint un score F1 de 77,83 % sur le jeu de données CULane, surpassant ainsi les détecteurs basés sur Transformer et les détecteurs basés sur CNN existants. De plus, O2SFormer converge 12,5 fois plus vite que DETR lorsqu’il utilise un squelette ResNet18.

Détection de lignes bout-en-bout basée sur un Transformer un-à-plusieurs | Articles de recherche récents | HyperAI