PDF 转 Markdown,智能提取结构化文本
上传 PDF 文件,自动识别文档结构,输出干净的 Markdown。保留标题层级、段落、列表,去除排版噪音。
上传 PDF 文档
拖拽 .pdf 文件到此处,或点击选择文件
支持拖拽上传
- 完全在浏览器中处理
- 智能识别标题、段落、列表结构
- 完全免费
使用步骤
三步搞定,无需注册。
- 1
上传 PDF
支持拖拽上传,选择你的 PDF 文件。
- 2
智能解析
自动识别字体大小推断标题层级,提取段落和列表结构。
- 3
复制或下载
一键复制 Markdown,或下载为 .md 文件。可直接喂回 ChatGPT / Notion。
功能介绍
为 AI 时代的文档交付打造的细节。
智能结构识别
根据字体大小、粗细自动推断标题层级,识别列表和段落结构。
排版噪音清洗
去除 PDF 中的页眉页脚、页码等冗余信息,输出干净可读的 Markdown。
纯前端转换
文件不会上传到服务器,关闭网络也能用。完全在浏览器中完成。
常见问题
还有疑问?写信给我们 mafk35444@gmail.com
FlowDoc 使用 Mozilla 开源的 PDF.js 引擎在浏览器端解析 PDF 文件的底层文本流。系统会提取每个文本块的字体大小、字体名称、坐标位置等元数据,通过智能算法分析字体大小分布,自动推断正文基准字号,并将明显大于基准的文本识别为标题(H1-H4)。同时,系统会检测项目符号(•、●、○ 等)和编号前缀来识别列表结构。这种基于统计分析的方法能够适应大多数标准排版的 PDF 文档。
当前版本仅支持包含可选择文本层的 PDF 文件(即“原生 PDF”或“电子 PDF”)。对于扫描件或纯图片组成的 PDF,由于其底层不包含文本数据,需要先经过 OCR(光学字符识别)处理。我们已将 OCR 集成功能列入开发路线图。当前建议先使用其他 OCR 工具(如 Adobe Acrobat)将扫描 PDF 转为可搜索 PDF,再导入 FlowDoc 进行结构化提取。
FlowDoc 会提取 PDF 中所有可见的文本内容,不会丢失任何文字信息。但需要注意,PDF 本质上是一种“视觉呈现”格式而非“结构化”格式,因此标题层级的推断是基于字体大小的启发式算法,在某些非标准排版的文档中可能需要手动微调。对于标准商业文档、学术论文、技术报告等规范排版的 PDF,识别准确率非常高。
绝对不会。整个 PDF 解析过程完全在您的浏览器本地完成。PDF.js 引擎直接在浏览器的 JavaScript 沙箱中运行,解压并解析 PDF 的二进制流,提取文本内容后由我们的结构化算法转换为 Markdown。没有任何数据会离开您的设备,即使在完全断网的环境下也能正常使用。