Command Palette
Search for a command to run...
Repenser les écarts interlinguistiques du point de vue statistique
Vihari Piratla Purvam Jain Darshan Singh Partha Talukdar Trevor Cohn

Résumé
Toute connaissance est généralement exprimée dans une ou quelques langues naturelles sur le web ou dans tout grand corpus. Les grands modèles linguistiques (LLM) agissent comme un pont en acquérant des connaissances à partir d'une langue source et en les rendant accessibles lorsqu'elles sont interrogées dans une langue cible. Des travaux antérieurs ont mis en évidence un écart interlingue, c’est-à-dire une baisse de précision lorsque les connaissances sont interrogées dans une langue cible par rapport à une interrogation dans la langue source. Les recherches existantes attribuent cette divergence à la différence entre les représentations latentes des langues source et cible. Dans ce travail, nous adoptons une perspective alternative et supposons que la variance des réponses dans la langue cible est la principale cause de cet écart. Pour la première fois, nous formalisons l’écart interlingue à l’aide d’une décomposition biais-variance. Nous présentons des preuves expérimentales étendues qui soutiennent cette formulation et notre hypothèse. Nous renforçons ensuite cette hypothèse à travers plusieurs interventions à l’époque de l’inférence, visant à contrôler la variance et à réduire l’écart interlingue. Nous démontrons qu’une instruction de prompt simple permet de réduire la variance des réponses, améliorant ainsi la précision dans la langue cible de 20 à 25 %, sur différents modèles.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.