使用合成数据构建快速多语言 OCR 模型 (opens in new tab)

📌 One-Sentence Summary 本文详细介绍了 NVIDIA 开发 Nemotron OCR v2 的过程，这是一个快速、准确的多语言 OCR 模型，通过一个可扩展、语言无关的渲染流程，在包含 1220 万张图像的大规模开源合成数据集上训练而成，从而克服了数据稀缺的难题。 📝 Summary 本文介绍了 NVIDIA 的 Nemotron OCR v2，这是一个可用于生产的多语言 OCR 模型，通过利用新颖的合成数据生成流程，实现了高精度和高速度（在 A100 上每秒处理 34.7 页）。它通过程序化生成涵盖六种语言（英语、日语、韩语、俄语、简体中文和繁体中文）的 1220 万张训练图像，解决了多语言 OCR 的核心挑战——缺乏大规模、干净、带标注的数据集。该流程基于改进的 SynthDoG 构建，使用 mOSCAR 文本语料库和开源字体来创建具有像素级完美分层标注（单词、行、段落）和阅读顺序图的图像。该模型架构基于 FOTS，采用共享主干网络以实现高效的检测、识别和关系推理，从而形成了一个单一的、统一的模型。该模型在合成基准测试中优于专门的单语言模型，并在真实世界...

Read the original article