
摘要
本文介绍了FinSen数据集,该数据集通过整合来自197个国家的经济和金融新闻文章与股票市场数据,彻底革新了金融市场分析。FinSen数据集的时间覆盖范围为2007年至2023年的15年时间,包含时间信息,提供了16万条关于金融市场新闻的丰富全球视角。我们的研究利用因果验证的情感分数和长短期记忆(LSTM)模型来提高市场预测的准确性和可靠性。借助FinSen数据集,我们引入了一种创新的焦点校准损失函数(Focal Calibration Loss),将DAN 3模型的预期校准误差(Expected Calibration Error, ECE)降低至3.34%。这不仅提高了预测准确性,还使概率预测与实际结果更加一致,对于金融市场而言这一点至关重要,因为预测概率具有极高的重要性。我们的方法展示了将情感分析与精确校准技术相结合在可信金融预测中的有效性,尤其是在误判成本较高的情况下。FinSen数据集可在此GitHub链接获取。