2ヶ月前

メタデータに依存しないテキストからSQLへのコンテキスト内表現の学習 例選択

Mai, Chuhong ; Tal, Ro-ee ; Mohamed, Thahir
メタデータに依存しないテキストからSQLへのコンテキスト内表現の学習
例選択
要約

コンテキスト内学習(ICL)は、大規模言語モデル(LLM)がプロンプトに追加されたタスクデモンストレーションから利益を得る強力なパラダイムです。しかし、最適なデモンストレーションを選択することは容易ではなく、特に入力と出力の分布が異なる複雑なまたは多様的なタスクではさらに困難です。本研究では、入力に対するタスク固有の表現を形成することが重要であると仮説を立てています。本論文では、自然言語の質問とSQLクエリの表現を共有埋め込み空間で整合させる方法を提案します。当該手法は、MARLO - メタデータ非依存的なテキスト-ト-SQL表現学習(Metadata-Agnostic Representation Learning for Text-tO-SQL)- と呼ばれ、クエリ構造を利用して問い合わせ意図をモデル化し、基礎となるデータベースメタデータ(テーブル、列、または質問やクエリで参照されるドメイン固有のエンティティ)に過度に依存することなく機能します。これにより、MARLOは特定のドメインや質問の表現に偶然関連する例ではなく、構造的におよび意味的に関連する例を選択することができます。質問類似性に基づいて例を検索するために使用される場合、MARLOは一般的な埋め込みモデルよりも優れた性能を示し(平均実行精度で+2.9ポイント)、メタデータ情報をマスキングする次の最良の手法よりも平均実行精度で+0.8ポイント高い性能を発揮しながら、著しく低い推論遅延時間を実現しています。Spiderベンチマークにおいても同様の結果が得られており、MARLOは一般的な埋め込みモデルに対して平均実行精度で+2.9ポイント改善し、メタデータ情報をマスキングする手法に対しては平均実行精度で+0.8ポイント上回っています。また、推論遅延時間も大幅に短縮されています。

メタデータに依存しないテキストからSQLへのコンテキスト内表現の学習 例選択 | 最新論文 | HyperAI超神経