12 天前

ICDAR 2024 古籍手稿少样本与多样本版面分割竞赛(SAM)

{Claudio Piciarelli, Emanuela Colombi, Gian Luca Foresti, Axel De Nardin, Silvia Zottin}
摘要

版面分析是文档图像分析中的一个关键环节,尤其在古籍手稿处理中尤为重要。它为后续的光学字符识别与自动转录等任务提供了基础支撑。然而,该领域面临的一个核心挑战在于缺乏可用的标注数据(ground truth),因为人工标注这些数据极为耗时。尽管如此,现有众多方法在应对这一挑战时仍高度依赖于完全监督学习范式,而这种场景在真实应用中极为罕见。为此,本次竞赛提出了一项新挑战:采用少样本学习(few-shot learning)方法完成该任务,即仅使用三张图像作为训练样本。竞赛所用数据集名为U-DIADS-Bib,包含四份风格迥异的古籍手稿,涵盖不同的版面结构、不同程度的退化状况以及多种语言,其高度的多样性为任务带来了显著的复杂性与研究价值。此外,为兼顾不同研究路径,我们也允许参赛者采用传统的多样本学习(many-shot learning)方法,为此已向参赛者开放U-DIADS-Bib数据集的全部训练集。

ICDAR 2024 古籍手稿少样本与多样本版面分割竞赛(SAM) | 最新论文 | HyperAI超神经