Command Palette

Search for a command to run...

12일 전

토큰화에서 시각적 해석으로

Ling Xing Alex Jinpeng Wang Rui Yan Hongyu Qu Zechao Li Jinhui Tang

초록

사람들은 텍스트를 읽는다. 인간은 단어를 시각적 대상으로 인식함으로써, 그 모양, 배치, 패턴을 파악한 후 의미와 연결하는 방식으로 읽는다. 이 과정 덕분에 오타, 왜곡된 폰트, 다양한 글자 체계를 효과적으로 처리할 수 있다. 그러나 현대의 대규모 언어 모델(Large Language Models, LLM)은 하위어 조각화(subword tokenization)에 의존하여, 고정된 어휘집에서 텍스트를 조각으로 나눈다. 이 방식은 자원이 풍부한 언어에선 효과적이지만, 자원이 제한된 언어에서는 과도하게 조각화되어 긴, 언어학적으로 의미 없는 시퀀스를 생성하고 계산량을 증가시킨다. 본 연구에서는 이러한 기존의 패러다임에 도전하여, 시각 중심의 대안을 제시한다. 제안하는 방법인 SeeTok은 텍스트를 이미지(시각적 텍스트)로 렌더링하고, 사전 훈련된 다중모달 LLM을 활용해 이를 해석한다. 이는 대규모 다중모달 훈련을 통해 학습된 강력한 OCR 능력과 텍스트-시각 간 정렬 능력을 재사용함으로써, 기존의 텍스트 기반 처리 방식을 보완한다. 세 가지 다른 언어 처리 과제에서 SeeTok은 하위어 토큰화 기법과 비슷하거나 이를 상회하는 성능을 달성하면서, 토큰 수는 4.43배 줄이고, FLOPs는 70.5% 감소시켰으며, 다국어 일반화 능력, 타이포그래피 노이즈에 대한 저항성, 언어적 계층 구조의 이해 측면에서도 추가적인 성능 향상을 보였다. SeeTok은 기호 기반 토큰화에서 인간과 유사한 시각적 읽기로의 전환을 시사하며, 더욱 자연스럽고 인지 과정을 모방한 언어 모델의 개발을 위한 한 걸음이 되었다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
토큰화에서 시각적 해석으로 | 연구 논문 | HyperAI초신경