HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 12 heures
LLM
Génération De Texte

Pipeline IA et données géo pour enrichir une app de running

L'application de suivi d'entraînement virtuel In the Long Run, qui permet aux coureurs de visualiser leurs parcours sur des itinéraires mondiaux célèbres, vient de déployer une fonctionnalité interactive d'identification des points d'intérêt. Cette mise à jour vise à enrichir l'expérience utilisateur en cartographiant automatiquement les sites naturels, historiques et culturels situés à proximité des traces GPS synchronisées via Strava. Pour alimenter cette nouvelle carte, le développeur a conçu un pipeline de données structuré. En partant de la base géographique GeoNames, les informations brutes ont été nettoyées et filtrées à l'aide d'outils standards du secteur, notamment Apache Parquet pour le stockage et DuckDB pour les requêtes analytiques. Des bibliothèques Python dédiées au traitement géospatial ont ensuite permis de croiser ces données avec des tracés réels, ne conservant que les lieux situés à moins de 50 kilomètres des itinéraires. Des signaux de notoriété, tels que les liens vers Wikipédia et les entrées Wikidata, ont été intégrés pour hiérarchiser la pertinence des points retenus, réduisant le dataset initial de plus de 13 millions à environ 725 000 entrées globales. L'intelligence artificielle a joué un rôle central mais réorienté au fil du projet. Initialement destinée à rédiger automatiquement les descriptions des lieux, la technologie s'est heurtée à un problème récurrent : les hallucinations. Le modèle Anthropic Haiku, choisi pour son rapport performance-coût, a généré des données factuelles erronées sur la taille de certaines localités ou la hauteur de massifs, et a parfois confondu des lieux homonymes. Pour garantir la rigueur informationnelle, le développeur a donc privilégié les résumés fournis directement par les projets wikis. L'IA a néanmoins conservé une utilité stratégique : elle est désormais utilisée pour attribuer une note subjective aux points d'intérêt, captant ainsi une forme de pertinence culturelle ou d'intérêt touristique que les indicateurs purement quantitatifs ne peuvent mesurer. Cette expérience a également mis en lumière des biais structurels inhérents aux données ouvertes, notamment une surreprésentation des lieux documentés dans les éditions anglophones de Wikipédia et une concentration excessive des marqueurs dans les zones urbaines. Face à ces disparités, des paramètres de filtrage ont été ajustés par itinéraire, permettant de pondérer dynamiquement les critères géographiques, démographiques et historiques selon les régions parcourues. Le projet illustre une réalité fréquente dans le développement moderne de produits data-driven : la subjectivité échappe aux validations automatiques. Comme le souligne le créateur, il est impossible de vérifier la pertinence esthétique ou culturelle d'une donnée à l'aide de tests unitaires conventionnels. La mise en production de cette version 1, disponible sur plusieurs parcours pilotes, marque une étape importante. Elle ouvre la voie à des itérations futures, alimentées par les retours de la communauté, afin d'affiner le filtrage algorithmique et d'offrir une expérience d'exploration virtuelle toujours plus immersive aux utilisateurs.

Liens associés