16日前

マルチタスク事前学習の力を活用した真の水準の自然言語説明の実現

Björn Plüster, Jakob Ambsdorf, Lukas Braach, Jae Hee Lee, Stefan Wermter
マルチタスク事前学習の力を活用した真の水準の自然言語説明の実現
要約

自然言語による説明は、近年の視覚言語自然言語説明(VL-NLE)モデルが追求するように、複雑な視覚言語タスクにおけるニューラルネットワークの意思決定プロセスを直感的に理解しやすい形で説明する可能性を秘めている。現在のモデルは、タスクの精度および説明の妥当性において顕著な性能を発揮しているが、いくつかの課題に直面している。たとえば、説明生成モジュールとタスク回答予測モジュールが別々に設計され、統合が不十分なモジュール構造を採用するモデルや、限定されたタスク集合で訓練されたバックボーンモデルを使用するモデル、あるいは特定のデータセットでの性能向上のために特例的な手法を導入するモデルが存在する。これらの制約を回避するため、本研究では生成型Transformerモデルにおける大規模マルチタスク事前学習の最近の進展をVL-NLEタスクに応用するアプローチを提案する。このアプローチは、最近のモデルを大幅に上回る性能を達成し、人間のアノテーターによる評価において、3つの評価データセットのうち2つで生成された説明が正解(ground truth)よりも好まれた。VL-NLE研究における新たな課題として、マルチタスクVL-NLEの問題を提唱し、複数のタスクを同時に学習させることで説明の質が向上することを示した。さらに、高品質なNLE生成の倫理的含意や、最近のVL-NLE研究における他の課題についても議論する。