MI-DETR : Un modèle de détection d'objets basé sur un mécanisme d'interrogations multi-temporelles

À partir de l’analyse de la structure en décodeur en cascade couramment adoptée dans les modèles existants du type DETR, ce papier propose une nouvelle architecture de décodeur. L’architecture en décodeur en cascade contraint les requêtes d’objets à s’actualiser uniquement dans la direction en cascade, ne permettant ainsi aux requêtes d’objets d’extraire qu’un ensemble limité d’informations provenant des caractéristiques d’image. Toutefois, les défis posés par la détection d’objets dans des scènes naturelles (tels que les objets extrêmement petits, fortement occultés ou confondus avec le fond) exigent qu’un modèle de détection d’objets exploite pleinement les caractéristiques d’image. Cela nous a motivés à proposer une nouvelle architecture de décodeur intégrant un mécanisme parallèle à Multi-time Inquiries (MI). Ce mécanisme MI permet aux requêtes d’objets d’acquérir des informations plus complètes et plus riches. Le modèle basé sur MI, nommé MI-DETR, surpasse tous les modèles existants du type DETR sur le benchmark COCO, quel que soit le réseau de base (backbone) ou le nombre d’époques d’entraînement utilisé. En particulier, il obtient des gains de +2,3 AP et +0,6 AP par rapport au modèle le plus représentatif, DINO, et au modèle SOTA Relation-DETR, sur le backbone ResNet-50. En outre, une série d’expériences diagnostiques et de visualisations démontre efficacement l’efficacité, la rationalité et l’interprétabilité du mécanisme MI.