
要約
HuggingFace Datasetsハブは数千のデータセットをホストしており、言語モデルの訓練や評価に興味深い機会を提供しています。しかし、特定のタスクタイプ向けのデータセットはしばしば異なるスキーマを持ち、調和が困難な場合があります。マルチタスク訓練や評価を行うには、データをタスクテンプレートに適合させるために手動で作業を行う必要があります。この問題に対処するために、いくつかのイニシアチブが独立して調和されたデータセットをリリースしたり、データセットを一貫した形式に前処理するための調和コードを提供したりしています。私たちは過去の前処理努力におけるパターン(例えば、列名マッピングや構造化データ内の特定サブフィールドの抽出)を識別し、アノテーションが完全に露出され、非構造化コード内に隠されないことを保証する構造化アノテーションフレームワークを提案します。私たちは500以上の英語タスク用のデータセットアノテーションフレームワークとデータセットアノテーションをリリースしました(\url{https://github.com/sileod/tasksource})。これらのアノテーションには、すべてのデータセットで入力またはラベルとして使用される列名などのメタデータが含まれており、私たちのフレームワークを使用するかどうかに関わらず、将来のデータセット前処理時間を節約することができます。私たちはすべてのTaskSourceタスクでマルチタスクテキストエンコーダーを微調整し、外部評価において同等サイズの公開されているテキストエンコーダー全てを上回る性能を達成しました。