Command Palette

Search for a command to run...

2 个月前

Drivel-ology:通过深度解读荒谬内容挑战LLM

Yang Wang Chenghao Xiao Chia-Yi Hsiao Zi Yan Chang Chi-Li Chen Tyler Loakman Chenghua Lin

Drivel-ology:通过深度解读荒谬内容挑战LLM

摘要

我们提出“废话学”(Drivelology)这一独特的语言现象,其特征可概括为“蕴含深度的无意义”——即语法结构上连贯,但在语用层面却呈现悖论性、情感负载性或修辞颠覆性。尽管这类表达在表层看似荒诞无稽,实则隐含深层意义,需依赖语境推断、道德判断或情感解读才能理解。我们发现,尽管当前大型语言模型(LLMs)在诸多自然语言处理(NLP)任务中表现卓越,却始终无法把握废话学文本的多层次语义。为深入探究这一问题,我们构建了一个规模虽小但极具多样性的基准数据集,包含超过1,200个精心筛选的实例,其中部分样本涵盖英语、中文、西班牙语、法语、日语和韩语。标注过程尤为复杂:每个实例均需经过专家反复审阅,以确保其确实体现废话学的核心特征。整个标注过程历经多轮讨论与争议裁决,凸显了废话学本身微妙且高度主观的本质。我们对多种大型语言模型在分类、生成与推理任务上的表现进行了评估。结果表明,模型存在明显局限:它们常将废话学误判为浅层无意义,生成逻辑混乱的解释,甚至完全忽略其隐含的修辞功能。这些发现揭示了大型语言模型在语用理解层面存在的深层表征鸿沟,也挑战了“统计上的流利即等同于认知理解”的普遍假设。我们已公开发布该数据集及代码,以推动学界在超越表层连贯性的语言深度建模方面开展进一步研究。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供