BestBlogs.dev

使用合成数据构建快速多语言 OCR 模型 (opens in new tab)

📌 One-Sentence Summary 本文详细介绍了 NVIDIA 开发 Nemotron OCR v2 的过程,这是一个快速、准确的多语言 OCR 模型,通过一个可扩展、语言无关的渲染流程,在包含 1220 万张图像的大规模开源合成数据集上训练而成,从而克服了数据稀缺的难题。 📝 Summary 本文介绍了 NVIDIA 的 Nemotron OCR v2,这是一个可用于生产的多语言 OCR 模型,通过利用新颖的合成数据生成流程,实现了高精度和高速度(在 A100 上每秒处理 34.7 页)。它通过程序化生成涵盖六种语言(英语、日语、韩语、俄语、简体中文和繁体中文)的 1220 万张训练图像,解决了多语言 OCR 的核心挑战——缺乏大规模、干净、带标注的数据集。该流程基于改进的 SynthDoG 构建,使用 mOSCAR 文本语料库和开源字体来创建具有像素级完美分层标注(单词、行、段落)和阅读顺序图的图像。该模型架构基于 FOTS,采用共享主干网络以实现高效的检测、识别和关系推理,从而形成了一个单一的、统一的模型。该模型在合成基准测试中优于专门的单语言模型,并在真实世界...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help