回到首页

PDF 转 Markdown,智能提取结构化文本

上传 PDF 文件,自动识别文档结构,输出干净的 Markdown。保留标题层级、段落、列表,去除排版噪音。

上传 PDF 文档

拖拽 .pdf 文件到此处,或点击选择文件

支持拖拽上传

  • 完全在浏览器中处理
  • 智能识别标题、段落、列表结构
  • 完全免费

使用步骤

三步搞定,无需注册。

  1. 1

    上传 PDF

    支持拖拽上传,选择你的 PDF 文件。

  2. 2

    智能解析

    自动识别字体大小推断标题层级,提取段落和列表结构。

  3. 3

    复制或下载

    一键复制 Markdown,或下载为 .md 文件。可直接喂回 ChatGPT / Notion。

功能介绍

为 AI 时代的文档交付打造的细节。

  • 智能结构识别

    根据字体大小、粗细自动推断标题层级,识别列表和段落结构。

  • 排版噪音清洗

    去除 PDF 中的页眉页脚、页码等冗余信息,输出干净可读的 Markdown。

  • 纯前端转换

    文件不会上传到服务器,关闭网络也能用。完全在浏览器中完成。

常见问题

还有疑问?写信给我们 mafk35444@gmail.com

  • FlowDoc 使用 Mozilla 开源的 PDF.js 引擎在浏览器端解析 PDF 文件的底层文本流。系统会提取每个文本块的字体大小、字体名称、坐标位置等元数据,通过智能算法分析字体大小分布,自动推断正文基准字号,并将明显大于基准的文本识别为标题(H1-H4)。同时,系统会检测项目符号(•、●、○ 等)和编号前缀来识别列表结构。这种基于统计分析的方法能够适应大多数标准排版的 PDF 文档。

  • 当前版本仅支持包含可选择文本层的 PDF 文件(即“原生 PDF”或“电子 PDF”)。对于扫描件或纯图片组成的 PDF,由于其底层不包含文本数据,需要先经过 OCR(光学字符识别)处理。我们已将 OCR 集成功能列入开发路线图。当前建议先使用其他 OCR 工具(如 Adobe Acrobat)将扫描 PDF 转为可搜索 PDF,再导入 FlowDoc 进行结构化提取。

  • FlowDoc 会提取 PDF 中所有可见的文本内容,不会丢失任何文字信息。但需要注意,PDF 本质上是一种“视觉呈现”格式而非“结构化”格式,因此标题层级的推断是基于字体大小的启发式算法,在某些非标准排版的文档中可能需要手动微调。对于标准商业文档、学术论文、技术报告等规范排版的 PDF,识别准确率非常高。

  • 绝对不会。整个 PDF 解析过程完全在您的浏览器本地完成。PDF.js 引擎直接在浏览器的 JavaScript 沙箱中运行,解压并解析 PDF 的二进制流,提取文本内容后由我们的结构化算法转换为 Markdown。没有任何数据会离开您的设备,即使在完全断网的环境下也能正常使用。