HyperAI超神経

Text To Sql On Bird Big Bench For Large Scale

評価指標

Execution Accuracy % (Dev)
Execution Accuracy % (Test)

評価結果

このベンチマークにおける各モデルのパフォーマンス結果

比較表
モデル名Execution Accuracy % (Dev)Execution Accuracy % (Test)
モデル 168.1270.21
msc-sql-multi-sample-critiquing-small65.6-
モデル 359.7160.71
モデル 458.4760.37
モデル 562.9764.51
text-to-sql-empowered-by-large-language54.7657.41
can-llm-already-serve-as-a-database-interface37.2239.30
モデル 855.4863.39
モデル 972.4373.17
can-llm-already-serve-as-a-database-interface--
モデル 1155.4863.39
can-llms-effectively-leverage-structural42.7049.02
モデル 1364.7365.23
モデル 1467.9966.21
モデル 1565.4568.87
モデル 1663.3665.45
can-llm-already-serve-as-a-database-interface34.3536.47
chase-sql-multi-path-reasoning-and-preference73.1474.06
xiyan-sql-a-multi-generator-ensemble73.3475.63
モデル 2069.372.28
chess-contextual-harnessing-for-efficient-sql6566.69
can-llms-effectively-leverage-structural46.3554.89
モデル 2360.564.84
モデル 2462.5863.22
モデル 2557.1759.25
モデル 2658.562.66
mac-sql-multi-agent-collaboration-for-text-to57.5659.59
モデル 2866.8264.00
モデル 2965.3867.86
モデル 3064.62-
knowledge-to-sql-enhancing-sql-generation48.92-
the-death-of-schema-linking-text-to-sql-in67.2171.83
can-llm-already-serve-as-a-database-interface36.6440.08
モデル 3437.6847.74
din-sql-decomposed-in-context-learning-of-150.7255.90
モデル 3666.9569.03
モデル 3772.1670.26
can-llm-already-serve-as-a-database-interface27.3833.04
モデル 3974.3274.12
モデル 4061.3464.95