3ヶ月前

大規模言語モデルを用いたテーブルデータ理解の再考

Tianyang Liu, Fei Wang, Muhao Chen
大規模言語モデルを用いたテーブルデータ理解の再考
要約

大規模言語モデル(LLMs)は、さまざまなタスクにおいて優れた能力を示している一方で、表形式データに対する解釈および推論能力については依然として十分に検討されていない分野である。本研究では、この点に焦点を当て、3つの核心的な視点から検討を行う:表構造に対する摂動に対するLLMのロバスト性、表データに対するテキスト的推論と記号的推論の比較分析、および複数の推論経路の集約によるモデル性能向上の可能性。その結果、同一の内容を提示する表であっても、構造の変動が顕著な性能低下を引き起こすことが明らかになった。特に記号的推論タスクにおいて顕著な低下が観察された。これに伴い、表構造の正規化を目的とした手法の提案がなされた。また、テキスト的推論は記号的推論をわずかに上回る性能を示したが、詳細な誤差分析から、タスクの性質によってそれぞれに異なる強みが見られた。特に注目すべきは、テキスト的推論と記号的推論の経路を組み合わせ、混合自己整合性(mix self-consistency)メカニズムを用いて集約することで、WIKITABLEQUESTIONSデータセットにおいて73.6%の精度というSOTA(最先端)性能を達成した点である。これは、従来のLLMを用いた表処理アプローチに比べ、顕著な進展を示している。