摘要
官方公报是公众获取相关信息的重要信息来源。对其内容进行细致审查,有助于发现可能引发公共资金管理不当的欺诈行为与异常情况。本文提出一个数据集,其中包含来自联邦区官方公报的文档,涵盖带有文档来源标注的样本以及未标注的样本。我们训练、评估并比较了一种基于迁移学习的模型(采用ULMFiT方法),与传统基于词袋模型(Bag-of-Words)的分类器(分别使用支持向量机SVM和朴素贝叶斯Naive Bayes)的性能表现。研究结果表明,SVM模型具有较强的竞争力,其性能略逊于ULMFiT模型,但训练与推理速度显著更快,且计算资源消耗更低。最后,我们通过消融实验(ablation analysis)评估了ULMFiT各组成部分对整体性能的影响。