6 个月前

计算机视觉

Sankalp Nagaonkar Augustya Sharma Ashish Choithani Ashutosh Trivedi

摘要

本文提出一个开源基准，用于评估视觉-语言模型（Vision-Language Models, VLMs）在动态视频环境下的光学字符识别（Optical Character Recognition, OCR）任务表现。我们构建了一个精心筛选的数据集，包含1,477帧经人工标注的视频画面，覆盖代码编辑器、新闻播报、YouTube视频及广告等多种应用场景。本研究将三种前沿VLM模型——Claude-3、Gemini-1.5与GPT-4o，与传统OCR系统（如EasyOCR和RapidOCR）进行对比评测。评估指标包括词错误率（Word Error Rate, WER）、字符错误率（Character Error Rate, CER）以及识别准确率。实验结果揭示了VLMs在基于视频的OCR任务中的优势与局限性，表明在多数场景下，VLMs具备超越传统OCR模型的潜力。然而，模型仍面临幻觉（hallucination）、内容安全策略限制以及对遮挡或风格化文本敏感等挑战。该数据集与基准测试框架已公开发布，旨在推动相关领域的进一步研究。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Sankalp Nagaonkar Augustya Sharma Ashish Choithani Ashutosh Trivedi

摘要

本文提出一个开源基准，用于评估视觉-语言模型（Vision-Language Models, VLMs）在动态视频环境下的光学字符识别（Optical Character Recognition, OCR）任务表现。我们构建了一个精心筛选的数据集，包含1,477帧经人工标注的视频画面，覆盖代码编辑器、新闻播报、YouTube视频及广告等多种应用场景。本研究将三种前沿VLM模型——Claude-3、Gemini-1.5与GPT-4o，与传统OCR系统（如EasyOCR和RapidOCR）进行对比评测。评估指标包括词错误率（Word Error Rate, WER）、字符错误率（Character Error Rate, CER）以及识别准确率。实验结果揭示了VLMs在基于视频的OCR任务中的优势与局限性，表明在多数场景下，VLMs具备超越传统OCR模型的潜力。然而，模型仍面临幻觉（hallucination）、内容安全策略限制以及对遮挡或风格化文本敏感等挑战。该数据集与基准测试框架已公开发布，旨在推动相关领域的进一步研究。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供