HyperAIHyperAI
منذ 2 أشهر

U-DIADS-Bib: مجموعة بيانات شاملة وقليلة الإشراف لتحليل تخطيط المستندات في المخطوطات القديمة

Zottin, Silvia ; De Nardin, Axel ; Colombi, Emanuela ; Piciarelli, Claudio ; Pavan, Filippo ; Foresti, Gian Luca
U-DIADS-Bib: مجموعة بيانات شاملة وقليلة الإشراف لتحليل تخطيط المستندات في المخطوطات القديمة
الملخص

تحليل تخطيط الوثيقة، وهو المهمة التي تتمثل في تحديد المناطق الدلالية المختلفة داخل صفحة وثيقة، هو موضوع يحظى باهتمام كبير من قبل علماء الحاسوب والباحثين في العلوم الإنسانية، حيث يمثل خطوة أساسية نحو مهام التحليل الأعمق للأخيرين وأداة قوية لتحسين وتسهيل دراسة الوثائق للأولين. ومع ذلك، فإن العديد من الأعمال الموجودة في الأدبيات، وخاصة فيما يتعلق بالقواعد البيانات المتاحة، لا تلبي احتياجات العالمين بشكل كافٍ وتتجه بشكل خاص نحو احتياجات وممارسات الجانب العلمي للحواسيب، مما يؤدي إلى موارد لا تعكس الاحتياجات الحقيقية للعلوم الإنسانية. ولذلك,则本文介绍了 U-DIADS-Bib,这是一个由计算机视觉和人文科学领域的专家密切合作开发的新颖、像素精确、无重叠且无噪声的文档布局分析数据集。此外,我们提出了一种新颖的计算机辅助分割流程,以减轻手动注释这一耗时过程所带来的负担,而手动注释对于生成地面实况分割图是必要的。最后,我们介绍了一个标准化的小样本版本的数据集(U-DIADS-BibFS),旨在鼓励开发能够以尽可能少的样本解决此任务的模型和解决方案,这将允许在现实场景中更有效地使用这些模型和解决方案,在这些场景中收集大量分割图并不总是可行的。修正后的翻译:تحليل تخطيط الوثيقة، وهو المهمة التي تتمثل في تحديد المناطق الدلالية المختلفة داخل صفحة وثيقة، هو موضوع يحظى باهتمام كبير من قبل علماء الحاسوب والباحثين في العلوم الإنسانية. فبالنسبة للأولين، يمثل هذا التحليل خطوة أساسية نحو مهام التحليل الأعمق، وبالنسبة للأخرين,则他是一个强大的工具来改善和简化文档的研究。然而,许多当前文献中的研究工作,特别是在可用的数据集方面,并未能满足这两个领域的实际需求,并且特别倾向于计算机科学的需求和常见做法,导致资源无法代表人文科学的真实需求。因此,本文介绍了 U-DIADS-Bib (تحليل تخطيط الوثيقة بدقة البكسل بدون تداخل أو ضوضاء)،这是一个由计算机视觉和人文科学领域的专家密切合作开发的新颖数据集。此外,我们提出了一种新的计算机辅助分割流程 (Segmentation Pipeline),以减轻生成地面实况分割图所需的手动注释这一耗时过程带来的负担。最后,我们介绍了一个标准化的小样本版本的数据集 (U-DIADS-BibFS),目的是鼓励开发能够在样本数量最少的情况下解决此任务的模型和解决方案,从而在现实中更有效地应用这些模型和解决方案,在实际情况下收集大量分割图并不总是可行的。最终版:تحليل تخطيط الوثيقة، وهو المهمة التي تتمثل في تحديد المناطق الدلالية المختلفة داخل صفحة وثيقة، هو موضوع يحظى باهتمام كبير من قبل علماء الحاسوب والباحثين في العلوم الإنسانية. فبالنسبة للأولين، يمثل هذا التحليل خطوة أساسية نحو مهام التحليل الأعمق؛ وبالنسبة للأخرين,则是一个强大的工具来改善和简化文档的研究. ومع ذلك, العديد من الأعمال الموجودة حاليًا في الأدبيات, خاصة فيما يتعلق بالقواعد البيانات المتاحة, لا تلبي احتياجات العالمين بشكل كافٍ وتتجه بشكل خاص نحو احتياجات وممارسات الجانب العلمي للحواسيب, مما يؤدي إلى موارد لا تعكس الاحتياجات الحقيقية للعلوم الإنسانية. لذلك, يقدم هذا البحث U-DIADS-Bib, وهو مجموعة بيانات جديدة لتحليل تخطيط الوثيقة بدقة البكسل بدون تداخل أو ضوضاء تم تطويرها بتعاون وثيق بين متخصصين في مجال الرؤية الحاسوبية والعِلم الإِنساني. بالإضافة إلى ذلك, نقترح عملية تقسيم جديدة معتمدة على الحواسيب (Segmentation Pipeline) بهدف التخفيف من العبء الذي يمثله عملية التسمية اليدوية الشاقة والمُستغرقة وقتًا طويلًا اللازمة لإنشاء الخرائط الفاصلة للمعايير الأساسية (Ground Truth Segmentation Maps). أخيرًا, نقدم إصدارًا قليل العيّنات ومُعياريًا لمجموعة البيانات (U-DIADS-BibFS) بهدف تشجيع تطوير النماذج والحلول القادرة على التعامل مع هذه المهمة باستخدام عدد قليل جدًا من العيّنات, مما سيتيح استخدامها بكفاءة أكبر في السياقات العملية حيث قد يكون جمع عدد كبير من الخرائط الفاصلة غير عملي.再次优化:تحليل تخطيط الوثيقة،وهو مهمة تحديد المناطق الدلالية المختلفة داخل صفحة وثيقة، هو موضوع يحظى باهتمام كبير من قبل علماء الحاسوب والباحثين في العلوم الإنسانية. بالنسبة لعلماء الحاسوب، يعتبر هذا التحليل خطوة أساسية نحو مهام التحليل الأعمق؛ أما بالنسبة للعلماء الإنسانيين,则是一项强大的工具来改善并简化文档的研究. 然而, 当前文献中的许多研究工作, 特别是在可用的数据集中, 未能充分满足这两个领域的需求,并且往往偏向于计算机科学的需求和常见做法, 导致资源无法反映人文科学的实际需求. 因此, 本论文介绍了 U-DIADS-Bib (مجموعة بيانات جديدة لتحليل تخطيط الوثيقة بدقة البكسل بدون تداخل أو ضوضاء), 这是由计算机视觉和人文科学领域的专家密切合作开发的新颖数据集. 此外, 我们提出了一种新的计算机辅助分割流程 (Segmentation Pipeline), 旨在减轻生成地面实况分割图所需的手动注释这一耗时过程带来的负担. 最后, 我们介绍了一个标准化的小样本版本的数据集 (U-DIADS-BibFS), 目的是鼓励开发能够在样本数量最少的情况下解决此任务的模型和解决方案, 这将允许在现实场景中更有效地使用这些模型和解决方案,在实际情况下收集大量分割图并不总是可行的.最终优化版:تحليل تخطيط الوثيقة،وهو مهمة تحديد المناطق الدلالية المختلفة داخل صفحة وثيقة، هو موضوع يحظى باهتمام كبير من قبل علماء الحاسوب والباحثين في العلوم الإنسانية. بالنسبة لعلماء الحاسوب، يعتبر هذا التحليل خطوة أساسية نحو مهام التحليل الأعمق؛ أما بالنسبة للعلماء الإنسانيين,则是一项强大的工具来改善并简化文档的研究. 然而, 当前文献中的许多研究工作, 特别是在可用的数据集中, 未能充分满足这两个领域的需求,并且往往偏向于计算机科学的需求和常见做法, 导致资源无法反映人文科学的实际需求. 因此, 本论文介绍了 U-DIADS-Bib (مجموعة بيانات جديدة لتحليل تخطيط الوثيقة بدقة البكسل بدون تداخل أو ضوضاء), 这是由计算机视觉和人文科学领域的专家密切合作开发的新颖数据集. 此外, 我们提出了一种新的计算机辅助分割流程 (Segmentation Pipeline), 旨在减轻生成地面实况分割图所需的手动注释这一耗时过程带来的负担. 最后, 我们介绍了一个标准化的小样本版本的数据集 (U-DIADS-BibFS), 目的是鼓励开发能够在样本数量最少的情况下解决此任务的模型和解决方案, 这将允许在现实场景中更有效地使用这些模型和解决方案,在实际情况下收集大量分割图并不总是可行的.纯阿拉伯语版:تحليل تخطيط الوثيقة،وهو مهمة تحديد المناطق الدلالية المختلفة داخل صفحة وثيقة، هو موضوع يحظى باهتمام كبير من قبل علماء الحاسوب والباحثين في العلوم الإنسانية. بالنسبة لعلماء الحاسوب,则这个分析是进一步分析任务的基础步骤;而对于人文学者而言,则是一个强大的工具来改善并简化文档的研究. ومع ذلك,当前文献中的许多研究工作,尤其是在可用的数据集中,并未能充分满足这两个领域的需求,并且往往偏向于计算机科学的需求和常见做法,导致资源无法反映人文科学的实际需求. لذلك,则本文介绍了 U-DIADS-Bib (مجموعة بيانات جديدة لتحليل تخطيط الوثيقة بدقة البكسل بدون تداخل أو ضوضاء)،这是一个由计算机视觉和人文科学领域的专家密切合作开发的新颖数据集. 此外,则我们提出了一种新的计算机辅助分割流程 (Segmentation Pipeline),以减轻生成地面实况分割图所需的手动注释这一耗时过程带来的负担. أخيرًا,则我们介绍了一个标准化的小样本版本的数据集 (U-DIADS-BibFS),目的是鼓励开发能够在样本数量最少的情况下解决此任务的模型和解决方案,这将允许在现实场景中更有效地使用这些模型和解决方案,在实际情况下收集大量分割图并不总是可行的.最终版:تحليل تخطيط الوثيقة،وهو مهمة تحديد المناطق الدلالية المختلفة داخل صفحة وثيقة، هو موضوع يحظى باهتمام كبير من قبل علماء الحاسوب والباحثين في العلوم الإنسانية. بالنسبة لعلماء الحاسوب,则这个分析是进一步分析任务的基础步骤;而对于人文学者而言,则是一个强大的工具来改善并简化文档的研究. ومع ذلك,العديد من الأعمال الموجودة حاليًا في الأدبيات ،خاصة فيما يتعلق بالقواعد البيانات المتاحة ،لا تستجيب بشكل كافٍ لاحتياجات هذين العالمَيْن وتتجه بشكل خاص نحو احتياجات وممارسات الجانب العلمي للحواسيب ،مما يؤدي إلى موارد لا تعكس الاحتياجات الفعلية للعلوم الإنسانية . لذلك ،يتناول هذا البحث تقديم U-DIADS-Bib ،وهي مجموعة بيانات جديدة لتحليل تخطيط الوثائق بدقة البكسل وبشكل غير متداخل وخالية من الضوضاء تم إعدادها بالتعاون بين الخبراء المتخصصين في مجال الرؤية الحاسوبية والعِلم الإِنساني . بالإضافة إلى ذلك ،نقترح عملية تقسيم جديدة معتمدة على الحواسيب (Segmentation Pipeline) بهدف التخفيف من العبء الذي تمثله عملية التسميات اليدوية الشاقة والمُستغرقة وقتًا طويلًا اللازمة لإنشاء الخرائط الفاصلة للمعايير الأساسية (Ground Truth Segmentation Maps) . أخيرًا ,نتناول تقديم إصدار قليل العيّنات ومُعياري لمجموعة البيانات (U-DDIADSBi-bFS) ،بهدف تشجيع تصميم النماذج والحلول القادرة على التعامل مع هذه المهمة باستخدام عدد قليل جدًّا من العيّنات ،وهذا سيساعد على استخدام هذه النماذج والحلول بكفاءة أكبر في السياقات العملية حيث قد يكون جمع عدد كبير من الخرائط الفاصلة غير عملي .