Command Palette
Search for a command to run...
Ling Xing Alex Jinpeng Wang Rui Yan Hongyu Qu Zechao Li Jinhui Tang
要約
人間はテキストを読む。人間は、意味との関連付けの前に、文字の形状や配置、パターンといった視覚的対象として単語を認識することで読解を行う。この仕組みにより、綴りの誤りや歪んだフォント、さまざまな文字体系に対しても効果的に対応できる。一方、現代の大型言語モデル(LLM)は、固定語彙からのサブワードトークン化に依存しており、テキストを定型的な単位に分割する。このアプローチは高リソース言語では効果的であるが、低リソース言語では過剰に分割され、意味のない長大な語彙列が生じ、計算量が著しく増加する。本研究では、この定着した従来の枠組みに挑戦し、視覚中心の代替アプローチを提案する。我々の手法であるSeeTokは、テキストを画像(視覚的テキスト)としてレンダリングし、事前学習済みの多モーダルLLMを用いてその解釈を実現する。これにより、大規模な多モーダル学習で得られた強力なOCR能力およびテキスト-視覚の対応能力を再利用する。3種類の異なる言語タスクにおいて、SeeTokは従来のサブワードトークン化と同等またはそれ以上の性能を達成しつつ、トークン数を4.43倍削減し、FLOPsを70.5%低減する。さらに、多言語間の汎化能力、文字の装飾的ノイズに対するロバスト性、言語の階層構造の捉え方においても、顕著な向上が見られた。SeeTokは、記号的トークン化から人間のような視覚的読解へと移行する兆しを示しており、より自然で認知にインスパイアされた言語モデルの実現に一歩前進した。