特点与功能:
1. **文档格式全面兼容**:Marker 专为书籍和科学论文等文档类型进行了优化,能够高效地进行格式转换。
2. **多语言支持**:无论您使用的是哪种语言,Marker 都能轻松处理,支持全球多种语言文档的转换。
3. **智能去除杂项**:Marker 能够自动识别并自动移除文档中的页眉、页脚以及其它非文本元素,确保输出的纯净性。
4. **高级格式化**:Marker 不仅能够处理文本,还能格式化表格和代码块,使得最终的输出结果更加规范和易于阅读。
5. **图像提取与整合**:在文档转换过程中,Marker 能够智能提取文档中的图像,并与 Markdown 文本一同保存,保持原文档的视觉完整性。
6. **数学方程式友好**:Marker 能够将文档中的大多数数学方程式转换为 LaTeX 格式,确保在 Markdown 中的正确显示和排版。
7. **广泛的硬件支持**:Marker 支持在 GPU、CPU 或 MPS 上运行,无论是个人电脑还是服务器,都能根据用户的硬件环境进行优化。
工作原理:
Marker 利用一系列深度学习模型来处理 PDF 文档,其工作流程如下:
– **文本提取与OCR**:在需要时,Marker 结合启发式方法、Surya 模型和 Tesseract 进行文本识别,确保文本的准确提取。
– **页面布局分析**:Marker 使用 Surya 模型来检测页面布局,智能确定文档的阅读顺序,优化用户的阅读体验。
– **内容清洗与格式化**:Marker 利用启发式方法和 Texify 工具对每个文本块进行清洗和格式化,保证文本的整洁和一致性。
– **合并与后处理**:所有经过处理的文本块将被合并,并经过启发式方法和 PDF 后处理器的最终整理,以确保输出文本的高质量。
Marker 仅在必要的情况下调用模型进行处理,这样的设计既提升了处理速度,也确保了文档转换的高准确性和效率。
使用地址
https://github.com/VikParuchuri/marker