6ヶ月前

アプローチ／フレームワーク

オーディオ

Vadim Borisov Kathrin Seßler Tobias Leemann Martin Pawelczyk Gjergji Kasneci

概要

表形式データは、最も古くから存在する形態のデータの一つであり、広く普及している。しかし、元のデータの特性を再現した合成サンプルの生成は、依然として表形式データにおいて大きな課題である。コンピュータビジョン分野で広く用いられている生成モデル（例えば変分自己符号化器や生成的対抗ネットワーク）は、表形式データ生成に適応されたものの、近年注目を集めているトランスフォーマーに基づく大規模言語モデル（LLM）については、その生成的な性質を活かした研究はまだ少ない。本研究では、実際の表形式データに類似した高品質な合成データを生成するため、自己回帰型の生成的LLMを活用したGReaT（Generation of Realistic Tabular data）を提案する。さらに、GReaTは任意の特徴量サブセットを条件として設定することで、表形式データの分布をモデル化可能であり、残りの特徴量は追加の計算コストなしにサンプリング可能である。複数の視点から生成されたデータサンプルの妥当性と品質を定量的に評価する一連の実験を通じて、本手法の有効性を示した。その結果、異種の特徴量タイプを有し、サイズも多様な多数の実世界データセットおよび合成データセットにおいて、GReaTが最先端の性能を維持していることが確認された。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

アプローチ／フレームワーク

オーディオ

Vadim Borisov Kathrin Seßler Tobias Leemann Martin Pawelczyk Gjergji Kasneci

概要

表形式データは、最も古くから存在する形態のデータの一つであり、広く普及している。しかし、元のデータの特性を再現した合成サンプルの生成は、依然として表形式データにおいて大きな課題である。コンピュータビジョン分野で広く用いられている生成モデル（例えば変分自己符号化器や生成的対抗ネットワーク）は、表形式データ生成に適応されたものの、近年注目を集めているトランスフォーマーに基づく大規模言語モデル（LLM）については、その生成的な性質を活かした研究はまだ少ない。本研究では、実際の表形式データに類似した高品質な合成データを生成するため、自己回帰型の生成的LLMを活用したGReaT（Generation of Realistic Tabular data）を提案する。さらに、GReaTは任意の特徴量サブセットを条件として設定することで、表形式データの分布をモデル化可能であり、残りの特徴量は追加の計算コストなしにサンプリング可能である。複数の視点から生成されたデータサンプルの妥当性と品質を定量的に評価する一連の実験を通じて、本手法の有効性を示した。その結果、異種の特徴量タイプを有し、サイズも多様な多数の実世界データセットおよび合成データセットにおいて、GReaTが最先端の性能を維持していることが確認された。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています