SA-Text画像テキストデータセット
SA-Textは、韓国科学技術院(KOIST)と高麗大学が公開した、高品質シーン画像の大規模ベンチマークデータセットであり、テキスト認識画像復元(TAIR)タスク向けに設計されています。関連論文の結果は以下の通りです。拡散モデルを用いたテキストを考慮した画像復元”。
このデータセットには、ポリゴンレベルのテキスト注釈が付いた高解像度のシーン画像が 105,330 枚含まれており、画像内のテキストの位置と形状を正確に記述できるため、TAIR タスクに正確な監視情報が提供され、モデルが画像内のテキストの位置と構造をより適切に理解できるようになります。