从任何 PDF 提取 Markdown、JSON(带边界框)和 HTML。确定性本地模式 + AI 混合模式处理复杂页面。首个开源端到端 PDF 自动标记工具。
Python · Node.js · Java SDK | Java 11+ | 无需 GPU
pip install -U opendataloader-pdf
import opendataloader_pdf
# 一次调用批量处理
opendataloader_pdf.convert(
input_path=["file1.pdf", "folder/"],
output_dir="output/",
format="markdown,json"
)
从 PDF 数据提取到无障碍合规,端到端覆盖
PDF 解析时阅读顺序错误、表格损坏、无元素坐标
确定性本地 PDF 转 Markdown/JSON,XY-Cut++ 阅读顺序,每个元素带边界框
复杂表格、扫描 PDF、公式、图表需要 AI 级理解
混合模式将复杂页面路由到 AI 后端,基准测试排名第一
EAA、ADA、Section 508 强制执行,手动修复每份 $50–200
自动标记:布局分析 → 标签 PDF,与 PDF Association 和 veraPDF 协作
开源核心 + 企业附加组件,覆盖完整 PDF 处理管道
| 正确阅读顺序的文本提取 | 免费 |
| 每个元素的边界框 | 免费 |
| 表格提取(简单 + 复杂/无边框) | 免费 |
| 标题层级 · 列表检测 | 免费 |
| 图像提取(带坐标) | 免费 |
| AI 图表/图像描述 | 混合模式 |
| 扫描 PDF 的 OCR(80+ 语言) | 混合模式 |
| 公式提取(LaTeX) | 混合模式 |
| AI 安全(提示注入过滤) | 免费 |
| 标签 PDF 结构提取 | 免费 |
| 自动标记 → 标签 PDF | Q2 2026 |
| PDF/UA-1 · PDF/UA-2 导出 | 企业版 |
| 无障碍工作室(可视化编辑器) | 企业版 |
JSON
带边界框、语义类型的结构化数据
Markdown
用于 LLM 上下文、RAG 分块的清晰文本
HTML
带样式的 Web 显示
标注 PDF
可视化调试,查看检测到的结构
Text
纯文本提取
200 个真实 PDF 上的阅读顺序、表格和标题提取准确率。分数归一化到 [0,1]
| 引擎 | 整体 | 阅读顺序 | 表格 | 标题 | 速度 (s/页) |
|---|---|---|---|---|---|
| opendataloader [hybrid] | 0.907 | 0.934 | 0.928 | 0.821 | 0.463 |
| docling | 0.882 | 0.898 | 0.887 | 0.824 | 0.762 |
| nutrient | 0.880 | 0.924 | 0.662 | 0.811 | 0.230 |
| marker | 0.861 | 0.890 | 0.808 | 0.796 | 53.932 |
| unstructured [hi_res] | 0.841 | 0.904 | 0.588 | 0.749 | 3.008 |
| opendataloader(本地) | 0.831 | 0.902 | 0.489 | 0.739 | 0.015 |
| mineru | 0.831 | 0.857 | 0.873 | 0.743 | 5.962 |
| pymupdf4llm | 0.732 | 0.885 | 0.401 | 0.412 | 0.091 |
整体准确率
| 文档类型 | 推荐模式 | 安装 |
|---|---|---|
| 标准数字 PDF | 快速(默认) | pip install opendataloader-pdf |
| 复杂或嵌套表格 | 混合模式 | pip install "opendataloader-pdf[hybrid]" |
| 扫描/图像 PDF | 混合 + OCR | --force-ocr |
| 非英语扫描 PDF | 混合 + OCR | --ocr-lang "ko,en" |
| 数学公式 | 混合 + 公式 | --enrich-formula |
| 需要描述的图表 | 混合 + 图片 | --enrich-picture-description |
Java 11+ · Python 3.10+ · Node.js · Java SDK
pip install -U opendataloader-pdf
import opendataloader_pdf
opendataloader_pdf.convert(
input_path=["file1.pdf"],
output_dir="output/",
format="markdown,json"
)
npm install @opendataloader/pdf
import { convert } from '@opendataloader/pdf';
await convert(['file1.pdf'], {
outputDir: 'output/',
format: 'markdown,json'
});
<!-- Maven -->
<dependency>
<groupId>
org.opendataloader
</groupId>
<artifactId>
opendataloader-pdf-core
</artifactId>
</dependency>
快速本地 Java 处理 + AI 后端。简单页面本地 0.02s,复杂页面路由到 AI 获得 90%+ 表格准确率。
启动后端服务器
opendataloader-pdf-hybrid --port 5002处理 PDF
opendataloader-pdf --hybrid docling-fast file1.pdf folder/智能路由
简单页面 → 本地处理 (0.02s) | 复杂页面 → AI 后端
基于图像的 PDF,80+ 种语言
opendataloader-pdf-hybrid --force-ocr --ocr-lang "ko,en"科学 PDF 中的数学公式
opendataloader-pdf-hybrid --enrich-formula为图表和图像生成描述,适用于 RAG 和替代文本
opendataloader-pdf-hybrid --enrich-picture-description自动过滤隐藏文本、页外内容、不可见图层等提示注入攻击。支持敏感数据清理。
当 PDF 具有结构标签时,提取作者预期的确切布局 — 标题、列表、表格和阅读顺序从源文件保留。
官方 LangChain 文档加载器集成,直接用于 RAG 管道。一行安装即可使用。
本地模式 CPU 每秒 60+ 页 (0.02s/页)。混合模式 2+ 页/秒。无需 GPU,8+ 核机器吞吐量超 100 页/秒。
XY-Cut++ 阅读顺序分析,正确排序多栏页面、侧边栏和混合布局,无需配置。
100% 本地运行,无 API 调用,无数据传输。文档永远不会离开您的环境。适合法律、医疗和金融文档。
与 PDF Association 和 Dual Lab(veraPDF 开发者)协作构建。遵循 Well-Tagged PDF 规范,使用 veraPDF 验证。
读取现有 PDF 标签,检测无标签 PDF
已发布为无标签 PDF 生成结构标签 → 标签 PDF
Q2 2026 · Apache 2.0转换为 PDF/UA-1 或 PDF/UA-2 合规文件
企业版无障碍工作室 — 审查和修复标签
企业版规范
PDF Association 的 Well-Tagged PDF
验证
veraPDF — 行业参考验证器
协作
PDF Association + Dual Lab
许可证
自动标记 Apache 2.0 免费
自动标记 → 标签 PDF
从无标签 PDF 生成标签 PDF,Apache 2.0 免费
Hancom Data Loader
企业 AI 文档分析、客户定制模型、VLM 图表理解
结构验证
验证 PDF 标签树
OpenDataLoader 专为 RAG 设计 — 输出带边界框的结构化 JSON,使用 XY-Cut++ 处理多栏布局,本地运行无需 GPU。混合模式基准测试整体排名第一(0.907)。
整体排名第一(0.907)。docling (0.882) 缺乏边界框和 AI 安全过滤。marker (0.861) 需要 GPU 且速度慢 1000 倍。pymupdf4llm (0.732) 表格和标题准确率较差。OpenDataLoader 是唯一结合确定性本地提取、边界框和提示注入保护的解析器。
100% 本地运行,无 API 调用,无数据传输。文档永远不会离开您的环境。混合模式后端也在本地运行。适合法律、医疗和金融文档。
数字 PDF 文本提取开箱即用。扫描 PDF 使用混合模式 + --force-ocr --ocr-lang "ko,en"(或 ja、ch_sim、ch_tra)。
本地模式 CPU 每秒 60+ 页 (0.02s/页)。混合模式每秒 2+ 页 (0.46s/页)。无需 GPU。8+ 核机器多进程批处理吞吐量超 100 页/秒。
核心库在 Apache 2.0 下开源 — 可免费用于商业用途。包括所有提取功能、AI 安全过滤器、标签 PDF 支持和自动标记。企业附加组件(PDF/UA 导出、无障碍工作室)另行提供。
完整工作流程:审计 → 自动标记 → 标签 PDF → PDF/UA 导出。遵循 Well-Tagged PDF 规范并使用 veraPDF 验证。自动标记将在 Apache 2.0 下开源(Q2 2026)。PDF/UA 导出为企业附加组件。