OpenDataLoader PDF — 面向 AI 数据的 PDF 解析器

解决什么问题？

从 PDF 数据提取到无障碍合规，端到端覆盖

结构丢失

PDF 解析时阅读顺序错误、表格损坏、无元素坐标

确定性本地 PDF 转 Markdown/JSON，XY-Cut++ 阅读顺序，每个元素带边界框

已发布

复杂文档需要 AI

复杂表格、扫描 PDF、公式、图表需要 AI 级理解

混合模式将复杂页面路由到 AI 后端，基准测试排名第一

已发布

无障碍合规

EAA、ADA、Section 508 强制执行，手动修复每份 $50–200

自动标记：布局分析 → 标签 PDF，与 PDF Association 和 veraPDF 协作

2026 年 Q2

功能矩阵

开源核心 + 企业附加组件，覆盖完整 PDF 处理管道

数据提取

正确阅读顺序的文本提取	免费
每个元素的边界框	免费
表格提取（简单 + 复杂/无边框）	免费
标题层级 · 列表检测	免费
图像提取（带坐标）	免费
AI 图表/图像描述	混合模式
扫描 PDF 的 OCR（80+ 语言）	混合模式
公式提取（LaTeX）	混合模式
AI 安全（提示注入过滤）	免费

无障碍

标签 PDF 结构提取	免费
自动标记 → 标签 PDF	Q2 2026
PDF/UA-1 · PDF/UA-2 导出	企业版
无障碍工作室（可视化编辑器）	企业版

合规法规

欧洲无障碍法案 (EAA) 2025.06.28

ADA & Section 508 已生效

韩国数字包容法已生效

输出格式

JSON

带边界框、语义类型的结构化数据

Markdown

用于 LLM 上下文、RAG 分块的清晰文本

HTML

带样式的 Web 显示

标注 PDF

可视化调试，查看检测到的结构

Text

纯文本提取

提取基准测试

200 个真实 PDF 上的阅读顺序、表格和标题提取准确率。分数归一化到 [0,1]

引擎	整体	阅读顺序	表格	标题	速度 (s/页)
opendataloader [hybrid]	0.907	0.934	0.928	0.821	0.463
docling	0.882	0.898	0.887	0.824	0.762
nutrient	0.880	0.924	0.662	0.811	0.230
marker	0.861	0.890	0.808	0.796	53.932
unstructured [hi_res]	0.841	0.904	0.588	0.749	3.008
opendataloader（本地）	0.831	0.902	0.489	0.739	0.015
mineru	0.831	0.857	0.873	0.743	5.962
pymupdf4llm	0.732	0.885	0.401	0.412	0.091

整体准确率

opendataloader

0.907

docling

0.882

nutrient

0.880

marker

0.861

pymupdf4llm

0.732

应该使用哪种模式？

文档类型	推荐模式	安装
标准数字 PDF	快速（默认）	pip install opendataloader-pdf
复杂或嵌套表格	混合模式	pip install "opendataloader-pdf[hybrid]"
扫描/图像 PDF	混合 + OCR	--force-ocr
非英语扫描 PDF	混合 + OCR	--ocr-lang "ko,en"
数学公式	混合 + 公式	--enrich-formula
需要描述的图表	混合 + 图片	--enrich-picture-description

快速开始

Java 11+ · Python 3.10+ · Node.js · Java SDK

Py

Python

pip install -U opendataloader-pdf

import opendataloader_pdf

opendataloader_pdf.convert(
    input_path=["file1.pdf"],
    output_dir="output/",
    format="markdown,json"
)

JS

Node.js

npm install @opendataloader/pdf

import { convert } from '@opendataloader/pdf';

await convert(['file1.pdf'], {
    outputDir: 'output/',
    format: 'markdown,json'
});

J

Java

<!-- Maven -->
<dependency>
  <groupId>
    org.opendataloader
  </groupId>
  <artifactId>
    opendataloader-pdf-core
  </artifactId>
</dependency>

#1 准确率

混合模式

快速本地 Java 处理 + AI 后端。简单页面本地 0.02s，复杂页面路由到 AI 获得 90%+ 表格准确率。

处理流程

1

启动后端服务器

opendataloader-pdf-hybrid --port 5002

2

处理 PDF

opendataloader-pdf --hybrid docling-fast file1.pdf folder/

3

智能路由

简单页面 → 本地处理 (0.02s) | 复杂页面 → AI 后端

OCR — 扫描 PDF

基于图像的 PDF，80+ 种语言

opendataloader-pdf-hybrid --force-ocr --ocr-lang "ko,en"

公式提取 — LaTeX

科学 PDF 中的数学公式

opendataloader-pdf-hybrid --enrich-formula

图表描述 — AI 生成

为图表和图像生成描述，适用于 RAG 和替代文本

opendataloader-pdf-hybrid --enrich-picture-description

高级功能

AI 安全

自动过滤隐藏文本、页外内容、不可见图层等提示注入攻击。支持敏感数据清理。

标签 PDF 支持

当 PDF 具有结构标签时，提取作者预期的确切布局 — 标题、列表、表格和阅读顺序从源文件保留。

LangChain 集成

官方 LangChain 文档加载器集成，直接用于 RAG 管道。一行安装即可使用。

极速性能

本地模式 CPU 每秒 60+ 页 (0.02s/页)。混合模式 2+ 页/秒。无需 GPU，8+ 核机器吞吐量超 100 页/秒。

多栏布局

XY-Cut++ 阅读顺序分析，正确排序多栏页面、侧边栏和混合布局，无需配置。

完全本地运行

100% 本地运行，无 API 调用，无数据传输。文档永远不会离开您的环境。适合法律、医疗和金融文档。

PDF 无障碍

自动化 PDF 无障碍

与 PDF Association 和 Dual Lab（veraPDF 开发者）协作构建。遵循 Well-Tagged PDF 规范，使用 veraPDF 验证。

01

审计

读取现有 PDF 标签，检测无标签 PDF

已发布

02

自动标记

为无标签 PDF 生成结构标签 → 标签 PDF

Q2 2026 · Apache 2.0

03

导出 PDF/UA

转换为 PDF/UA-1 或 PDF/UA-2 合规文件

企业版

04

可视化编辑

无障碍工作室 — 审查和修复标签

企业版

标准与验证

规范

PDF Association 的 Well-Tagged PDF

验证

veraPDF — 行业参考验证器

协作

PDF Association + Dual Lab

许可证

自动标记 Apache 2.0 免费

路线图

Q2 2026

自动标记 → 标签 PDF

从无标签 PDF 生成标签 PDF，Apache 2.0 免费

Q2-Q3

Hancom Data Loader

企业 AI 文档分析、客户定制模型、VLM 图表理解

Q2 2026

结构验证

验证 PDF 标签树

常见问题

OpenDataLoader 专为 RAG 设计 — 输出带边界框的结构化 JSON，使用 XY-Cut++ 处理多栏布局，本地运行无需 GPU。混合模式基准测试整体排名第一（0.907）。

整体排名第一（0.907）。docling (0.882) 缺乏边界框和 AI 安全过滤。marker (0.861) 需要 GPU 且速度慢 1000 倍。pymupdf4llm (0.732) 表格和标题准确率较差。OpenDataLoader 是唯一结合确定性本地提取、边界框和提示注入保护的解析器。

100% 本地运行，无 API 调用，无数据传输。文档永远不会离开您的环境。混合模式后端也在本地运行。适合法律、医疗和金融文档。

数字 PDF 文本提取开箱即用。扫描 PDF 使用混合模式 + --force-ocr --ocr-lang "ko,en"（或 ja、ch_sim、ch_tra）。

本地模式 CPU 每秒 60+ 页 (0.02s/页)。混合模式每秒 2+ 页 (0.46s/页)。无需 GPU。8+ 核机器多进程批处理吞吐量超 100 页/秒。

核心库在 Apache 2.0 下开源 — 可免费用于商业用途。包括所有提取功能、AI 安全过滤器、标签 PDF 支持和自动标记。企业附加组件（PDF/UA 导出、无障碍工作室）另行提供。

完整工作流程：审计 → 自动标记 → 标签 PDF → PDF/UA 导出。遵循 Well-Tagged PDF 规范并使用 veraPDF 验证。自动标记将在 Apache 2.0 下开源（Q2 2026）。PDF/UA 导出为企业附加组件。

文档

Python 快速开始

安装和使用指南

Node.js 快速开始

JavaScript/TypeScript 集成

Java 快速开始

Maven 依赖和 API

JSON 架构参考

输出格式详细文档

混合模式指南

AI 后端配置

PDF 无障碍

EAA、ADA 合规指南