HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 jours

Dévoilement de la dimension intrinsèque des textes : du résumé académique au récit créatif

Vladislav Pedashenko Laida Kushnareva Yana Khassan Nibal Eduard Tulchinskii Kristian Kuznetsov Vladislav Zharchinskii Yury Maximov Irina Piontkovskaya

Dévoilement de la dimension intrinsèque des textes : du résumé académique au récit créatif

Résumé

Voici la traduction du texte en français, respectant le style formel et la terminologie propre au domaine de l'intelligence artificielle et du traitement du langage naturel :La dimension intrinsèque (DI) constitue un outil majeur dans l’analyse moderne des grands modèles de langage (LLM), éclairant les études sur la dynamique d’entraînement, le comportement de mise à l'échelle (scaling behavior) et la structure des jeux de données ; toutefois, ses déterminants textuels demeurent peu explorés. Nous présentons ici la première étude exhaustive ancrant la DI dans des propriétés textuelles interprétables, en utilisant l'analyse par cross-encoder, des caractéristiques linguistiques et des auto-encodeurs clairsemés (SAE). Dans ces travaux, nous établissons trois constats clés. Premièrement, la DI est complémentaire des métriques basées sur l’entropie : après neutralisation de l'effet de longueur, les deux mesures ne présentent aucune corrélation, la DI capturant une complexité géométrique orthogonale à la qualité de prédiction. Deuxièmement, la DI présente une stratification robuste selon le genre : les écrits scientifiques affichent une DI faible (~8), le contenu encyclopédique une DI moyenne (~9) et l’écriture créative ou d’opinion une DI élevée (~10,5), et ce, pour tous les modèles testés. Cela révèle que les LLM actuels perçoivent le texte scientifique comme étant « simple sur le plan représentationnel », tandis que la fiction requiert des degrés de liberté supplémentaires. Troisièmement, par l'utilisation des SAE, nous identifions des caractéristiques causales : les signaux scientifiques (ton formel, gabarits de rapports, statistiques) réduisent la DI, alors que les signaux « humanisés » (personnalisation, émotion, narration) l’augmentent. Des expériences de pilotage (steering) confirment la nature causale de ces effets. Ainsi, pour les modèles contemporains, l’écriture scientifique apparaît comparativement « facile », tandis que la fiction, l’opinion et la dimension affective ajoutent des degrés de liberté représentationnels. Notre analyse multidimensionnelle offre des orientations pratiques pour une utilisation appropriée de la DI et une interprétation rigoureuse des résultats qui en découlent.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Dévoilement de la dimension intrinsèque des textes : du résumé académique au récit créatif | Articles de recherche | HyperAI