HyperAIHyperAI

Command Palette

Search for a command to run...

常識推論タスクの合理性:ウィノグラッドスキーマチャレンジとSWAGに関する事例研究

Paul Trichelair; Ali Emami; Adam Trischler; Kaheer Suleman; Jackie Chi Kit Cheung

概要

最近の研究は、ウィノグラッドスキーマチャレンジ(WSC)やSWAGなどの常識推論(Common-Sense Reasoning: CSR)ベンチマークにおける最先端の成果を大幅に向上させています。本稿では、これらのベンチマークでの性能向上が、真正な常識機能を持つシステムへの進歩を示しているかどうかを問いかけます。私たちは両方のベンチマークについて事例研究を行い、以前の実験設計の妥当性に対する脅威を分析することで、その結果を明確かつ適切に説明するプロトコルを設計しました。私たちのプロトコルは、常識ベンチマークで一般的に見られるサイズ制限、構造的な規則性、およびインスタンス難易度の変動などの複数の特性を考慮しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています