基于强化学习的问答选择方法:一种由改进型ABC算法增强的BERT模型

答案选择(Answer Selection, AS)是开放域问答(Question Answering, QA)任务中的一个关键子任务。本文提出了一种名为RLAS-BIABC的方法用于AS,该方法基于注意力机制增强的长短期记忆网络(LSTM)与双向编码器表示来自变压器(Bidirectional Encoder Representations from Transformers, BERT)的词嵌入,并通过改进的人工蜂群算法(Improved Artificial Bee Colony, ABC)进行预训练,同时结合基于强化学习的反向传播(Backpropagation, BP)训练策略。BERT模型可被集成到下游任务中,并通过微调构建为统一的特定任务架构,其预训练模型能够捕捉多种语言学特征。现有算法通常采用正负样本对的方式训练AS模型,构建一个二分类器。其中,正样本对包含一个问题及其真实答案,而负样本对则包含一个问题和一个虚假答案。模型输出应为1表示正样本对,0表示负样本对。然而,实际中负样本通常远多于正样本,导致分类严重失衡,显著降低系统性能。为应对这一问题,本文将分类过程建模为一个序列决策过程:智能体在每一步选取一个样本并进行分类,每次分类操作后,智能体获得相应的奖励信号,其中多数类(负样本)的奖励值低于少数类(正样本)的奖励值,从而引导智能体优先关注少数类样本。最终,智能体通过优化策略权重,学习到最优的分类策略。为提升初始策略权重的质量,本文采用改进的人工蜂群算法进行初始化。该初始化策略有助于避免传统优化方法易陷入局部最优的问题。尽管人工蜂群算法在多数任务中表现良好,但其在搜索邻近食物源位置时,仍存在忽略个体间相关性对适应度影响的缺陷。为此,本文对ABC算法进行了改进,以增强其在探索过程中对个体相关性信息的利用能力,从而提升整体优化性能。