
要約
テーブルとテキスト上の質問応答(QA)に用いられるTransformerベースのモデルは、表形式データとテキスト要素が混合された「長大な」ハイブリッドシーケンスに直面しており、これにより長距離推論の課題が生じる。長距離推論に対処するため、本研究では融合型デコーダ(Fusion-in-Decoder, FiD)と指数移動平均(Exponential Moving Average, EMA)を広範に活用し、{underline{M}oving {underline{A}verage Equipped {underline{F}usion-{underline{i}n-{underline{D}ecoder({textbf{MAFiD})を提案する。FiDを基盤アーキテクチャとして採用し、MAFiDは同種データの{textit{独立符号化}、{textit{単行}および{textit{複数行}の異種データに対する推論を統合的に実現する。さらに、これらの異なる推論レベルから得られる表現を効果的に集約するために、{textit{ゲート付きクロスアテンション層}を導入している。HybridQAデータセットにおける実験結果から、MAFiDは盲検テストセットにおいて正確一致率(EM)を1.1ポイント、F1スコアを1.7ポイント向上させ、最先端の性能を達成したことが確認された。