
要約
大多数传统的句子相似度方法仅关注两个输入句子中的相似部分,而简单地忽略不同部分,这些不同部分通常能为我们提供关于句子的一些线索和语义意义。在本研究中,我们提出了一种通过分解和组合句子中的词汇语义来同时考虑相似性和差异性的模型。该模型将每个单词表示为向量,并根据另一句子中的所有单词计算每个单词的语义匹配向量。接着,基于语义匹配向量,将每个单词向量分解为相似成分和不同成分。在此之后,采用双通道卷积神经网络(CNN)模型通过组合相似成分和不同成分来捕捉特征。最后,通过对组合后的特征向量进行评估得出相似度分数。实验结果显示,我们的模型在答案句子选择任务上达到了最先进水平,并且在同义句识别任务上也取得了相当的结果。翻訳:従来の多くの文類似度手法は、2つの入力文の類似部分にのみ焦点を当て、異なる部分を単純に無視しますが、これらの異なる部分は通常、文に関する手がかりや意味論的な情報を提供してくれます。本研究では、文内の語彙意味を分解し再構成することで、類似性と相違性の両方を考慮するモデルを提案します。このモデルは各単語をベクトルで表現し、他の文内のすべての単語に基づいて各単語の意味論的マッチングベクトルを計算します。その後、意味論的マッチングベクトルに基づいて、各単語ベクトルを類似成分と相違成分に分解します。これにより、2チャネルCNN (Convolutional Neural Network) モデルを使用して、類似成分と相違成分を組み合わせることで特徴を抽出します。最後に、組み合わされた特徴ベクトルから類似度スコアを推定します。実験結果は、提案したモデルが回答文選択タスクにおいて最先端の性能を得ており、言い換え識別タスクでも同等の結果を得ていることを示しています。