Command Palette

Search for a command to run...

12 天前

从Token化到视觉阅读

Ling Xing Alex Jinpeng Wang Rui Yan Hongyu Qu Zechao Li Jinhui Tang

摘要

人们阅读文本时,是通过将单词识别为视觉对象,包括其形状、排版和模式,再将其与意义关联起来。这种认知方式使人类能够有效应对拼写错误、字体变形以及各种文字系统。然而,现代大型语言模型(LLMs)依赖于子词分词(subword tokenization),将文本切分为固定词表中的片段。尽管该方法在高资源语言上表现良好,但在低资源语言中却存在过度切分的问题,导致生成冗长且语言学上无意义的序列,同时显著增加计算开销。在本研究中,我们挑战了这一根深蒂固的范式,提出一种以视觉为中心的替代方案。我们的方法——SeeTok,将文本渲染为图像(即“视觉文本”),并利用预训练的多模态大语言模型进行解读,从而复用其在大规模多模态训练中所习得的强大光学字符识别(OCR)能力与文本-视觉对齐能力。在三项不同的语言任务中,SeeTok的表现达到或超越了传统子词分词器,同时将所需标记数减少4.43倍,计算量(FLOPs)降低70.5%,并进一步提升了跨语言泛化能力、对排版噪声的鲁棒性以及对语言层次结构的建模能力。SeeTok标志着从符号化分词向类人视觉阅读的范式转变,为构建更自然、更受认知启发的语言模型迈出了重要一步。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从Token化到视觉阅读 | 论文 | HyperAI超神经