2ヶ月前

EU法規制における大規模多ラベルテキスト分類

Ilias Chalkidis; Manos Fergadiotis; Prodromos Malakasiotis; Ion Androutsopoulos
EU法規制における大規模多ラベルテキスト分類
要約

私たちは、法域における大規模多ラベルテキスト分類(Large-Scale Multi-Label Text Classification: LMTC)について考察します。EURLEXから約57,000件の立法文書を収集し、それらに約4,300のEUROVOCラベルが付与された新しいデータセットを公開しました。このデータセットは、LMTCや少ショット学習およびゼロショット学習に適しています。複数のニューラル分類器を使用して実験を行い、ラベルごとの注意機構を持つBIGRUが他の現行の最先端手法よりも優れた性能を示すことを示しました。ドメイン固有のWORD2VECと文脈に敏感なELMO埋め込みにより、さらに性能が向上します。また、文書の特定の部分のみを考慮することでも十分であることがわかりました。これにより、BERTの最大テキスト長制限を回避し、ファインチューニングを行うことができ、ゼロショット学習以外のすべての場合で最良の結果を得ることができました。

EU法規制における大規模多ラベルテキスト分類 | 最新論文 | HyperAI超神経