IT之家

百度开源 Unlimited OCR 模型:基于 DeepSeek OCR,解析文档告别 AI 越生成越慢 (opens in new tab)

IT之家 6 月 25 日消息,百度于 6 月 22 日开源推出 Unlimited OCR 模型,总参数量 30 亿,推理时仅激活 5 亿参数,目标解决在解析长文档时,端到端 OCR 模型越生成越慢的问题。IT之家注:端到端 OCR 模型是统一神经网络架构系统,融合检测图像中的文本和字符识别,摒弃了传统“先检测文字框、再单独识别”的繁琐流程,直接从输入图像映射到文本序列输出,从而减少信息丢失和计算冗余。主流端到端 OCR 模型每生成 1 个 token,都会扩大 KV cache(键值缓存),显存占用和延迟随之上升,导致在用户的感知中,AI 解析多页文档后越生成越慢。Unlimited OCR 延续 DeepSeek OCR 架构,保留 DeepEncoder 与 Mixture-of-Experts(混合专家,MoE)解码器。模型总参数量为 30 亿,但推理时只激活 5 亿参数。Unlimited OCR 编码端采用两级视觉编码,并在连接阶段执行 16 倍 token 压缩,让 1024×1024 的 PDF 图像压缩为 256 个视觉 token,从源头减轻预填充负担。训练...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help