HyperAIHyperAI

Command Palette

Search for a command to run...

野生の中国語テキスト 中国語文字データセット

Discordで議論

日付

3年前

データセット構成

清華大学

Paper URL

arxiv.org

ライセンス

Other

Featured Image

Chinese Text in the Wild は、自然画像に含まれるテキストで作成された大規模なデータセットです。このデータセットには、1,018,402 字の漢字を含む 32,285 枚の画像が含まれており、これまでのデータセットをはるかに上回っています。これらのデータセットは、テンセント ストリート ビューから提供され、特別な目的もなく中国の数十の異なる都市から取得されました。

このデータセットは、その多様性と複雑さのため、非常に困難です。平らなテキスト、盛り上がったテキスト、都市部のテキスト、田舎のテキスト、低輝度のテキスト、遠くのテキスト、部分的に遮られたテキストなどが含まれます。

各画像について、そのすべての漢字に専門家による注釈が付けられています。データセットは、漢字ごとに、その基礎となる文字、境界ボックス、および 6 つの属性に注釈を付けて、それが隠れているか、複雑な背景、歪んでいるか、3D テキスト、ワード アート、手書きであるかを示します。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています