Intégration radiale profonde pour l'apprentissage de séquences visuelles

La Classification Temporelle Connexionniste (CTC) est une fonction objectif largement utilisée dans la reconnaissance de séquences, qui fournit une supervision pour des données de séquences non segmentées en effectuant une alignement itératif entre la séquence et son étiquetage correspondant. La classe vide (blank) dans CTC joue un rôle crucial dans le processus d’alignement et est souvent considérée comme responsable du phénomène de « picage » (peaky behavior) observé dans CTC. Dans cette étude, nous proposons une nouvelle fonction objectif nommée RadialCTC, qui contraint les caractéristiques de séquence à être situées sur une hypersphère tout en préservant le mécanisme d’alignement itératif de CTC. Les caractéristiques apprises pour chaque classe non vide sont réparties le long d’un arc radial partant du centre de la classe vide, offrant ainsi une interprétation géométrique claire et rendant le processus d’alignement plus efficace. En outre, RadialCTC permet de contrôler le phénomène de picage en modifiant simplement le logit associé à la classe vide. Les résultats expérimentaux en reconnaissance et localisation démontrent l’efficacité de RadialCTC sur deux applications de reconnaissance de séquences.