Command Palette
Search for a command to run...
{Philipp Cimiano Moritz Plenz Juri Opitz Anette Frank Philipp Heinisch}

要約
本稿は、第9回議論マイニングワークショップ(ArgMining 2022)の一環として実施された「議論の妥当性および新規性予測共同タスク」について概観するものである。本タスクは、与えられた本文(前提文)に基づいて、その結論の妥当性および新規性を予測することを目的としている。妥当性とは、前提に対して結論がどの程度正当化されているかを示す指標であり、新規性とは、結論が前提に対してどの程度新しい内容を含んでいるかを示す指標である。本タスクには6つの研究グループが参加し、二値分類サブタスクに対して合計13のシステム実行、相対分類サブタスクに対して2のシステム実行が提出された。結果から、本タスクの難易度が高く、最高の性能は、妥当性予測で75%のF1スコア、新規性予測で70%のF1スコア、両方のタスクを正しく予測する場合で45%のF1スコアであった。本稿では、タスクの定義および使用されたデータセットについて要約する。また、参加システムが得た結果の概要と、多様な貢献から得られる知見についても述べる。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| valnov-on-valnov-subtask-a | ACCEPT-1 | JOINT-F1: 43.13 NOV-F1: 70.00 VAL-F1: 59.20 |
| valnov-on-valnov-subtask-a | Baseline | JOINT-F1: 23.90 NOV-F1: 36.12 VAL-F1: 59.96 |
| valnov-on-valnov-subtask-a | CSS | JOINT-F1: 42.40 NOV-F1: 59.86 VAL-F1: 70.76 |
| valnov-on-valnov-subtask-a | System Average | JOINT-F1: 35.94 NOV-F1: 52.97 VAL-F1: 62.74 |
| valnov-on-valnov-subtask-a | NLP@UIT | JOINT-F1: 25.89 NOV-F1: 43.36 VAL-F1: 61.72 |
| valnov-on-valnov-subtask-a | CLTeamL-3 | JOINT-F1: 45.16 NOV-F1: 61.75 VAL-F1: 74.64 |
| valnov-on-valnov-subtask-a | Harshad | JOINT-F1: 17.35 NOV-F1: 39.00 VAL-F1: 56.31 |
| valnov-on-valnov-subtask-b | AXiS@EdUni | JOINT-F1: 29.16 NOV-F1: 25.86 VAL-F1: 32.47 |
| valnov-on-valnov-subtask-b | NLP@UIT | JOINT-F1: 41.50 NOV-F1: 38.39 VAL-F1: 44.60 |
| valnov-on-valnov-subtask-b | Baseline | JOINT-F1: 21.46 NOV-F1: 23.09 VAL-F1: 19.82 |