兴趣点数据管线构建:无法用单元测试检验品味
近期,In The Long Run 应用开发团队上线景点推荐功能 V1 版本,为跑者虚拟穿越全球著名路线时提供沿途地标与历史遗迹的交互地图。为构建数据管道,团队以 GeoNames 为基底,利用 Python、Parquet 与 DuckDB 进行空间清洗,通过地理围栏算法精准匹配路线周边候选点。在数据加权阶段,团队发现原始数据存在明显的盎格鲁中心主义偏差。为此,引入维基百科链接与多语言词条数作为客观信号,并接入 Anthropic Haiku 大模型进行主观评分。实践中,LLM 生成文本时频现事实幻觉,但其在捕捉主观品味方面优势显著。团队最终确立 AI 辅助策略,仅保留 LLM 评分功能,文本统一采用维基百科摘要以确保准确。针对地域差异,开发组进一步引入路线级参数、人口过滤与空间均匀分布算法完成调优。该功能上线不仅提升了虚拟跑步的沉浸体验,更以实战验证了传统数据工程与 AI 信号融合的有效路径,同时深刻揭示了数据科学中无法通过单元测试量化品味的客观挑战。
