Reconnaissance de la parole audiovisuelle basée sur un Transformer régulé et une stratégie de fusion spatio-temporelle pour les systèmes d'assistance au conducteur
Cet article présente une méthodologie de recherche pour la reconnaissance vocale audiovisuelle (AVSR) dans les systèmes d’assistance au conducteur. Ces systèmes nécessitent une interaction continue avec le conducteur pendant la conduite, via une commande vocale, pour des raisons de sécurité. L’article introduit un nouveau modèle, le Transformer de reconnaissance de commandes vocales audiovisuelles (AVCRFormer), spécifiquement conçu pour une AVSR robuste. Nous proposons (i) une stratégie de fusion multimodale basée sur la fusion spatio-temporelle de matrices de caractéristiques audio et vidéo, (ii) un transformer régulé reposant sur un module d’amélioration itérative du modèle comprenant plusieurs encodeurs, et (iii) une stratégie d’ensemble de classificateurs fondée sur plusieurs décodeurs. La stratégie de fusion spatio-temporelle préserve l’information contextuelle des deux modalités tout en assurant leur synchronisation. Le module d’amélioration itérative du modèle permet de réduire l’écart entre les données acoustiques et visuelles en exploitant leur impact conjoint sur la précision de reconnaissance vocale. La stratégie de prédiction multiple proposée démontre des performances supérieures par rapport aux approches traditionnelles à prédiction unique, illustrant ainsi la capacité d’adaptation du modèle à divers contextes audiovisuels. Le transformer proposé atteint les valeurs les plus élevées en termes de précision de reconnaissance des commandes vocales, atteignant respectivement 98,87 % et 98,81 % sur les corpus RUSAVIC et LRW. Cette recherche a des implications importantes pour l’avancement de l’interaction homme-machine. Les capacités d’AVCRFormer s’étendent au-delà de la reconnaissance audiovisuelle, en faisant une contribution précieuse à l’intersection entre le traitement audiovisuel et l’intelligence artificielle.