首页 > Ai资讯 > Ai日报 > Marker :快速准确地将各种文件转换为 Markdown 格式

Marker :快速准确地将各种文件转换为 Markdown 格式

发布时间:2024年05月18日

Marker 能将 PDF、EPUB 和 MOBI 文件转换成 markdown 格式。它的转换速度是 nougat 的十倍之快,对多数文档的处理更为精确,且几乎不会产生错误的幻觉效果。

主要功能

  1. 支持多种格式:能够将 PDF、EPUB、MOBI文件转换 Markdown 格式。
  2. ⚡ 高速和高准确度:提供快速的转换速度和高准确度,(针对书籍和科学论文进行了优化)速度比 nougat 快 10 倍。
  3. 去除多余元素:自动去除页眉、页脚和其他不必要元素。
  4. 方程转 LaTeX:能够将大多数数学方程转换为 LaTeX 格式,适用于科学和学术文档。
  5. 格式化代码和表格:能够识别并格式化文档中的代码块和表格。
  6. OCR 功能:如果需要,它会使用OCR来处理文档
  7. 支持多种语言:支持多种语言

工作原理

Marker 是基于一系列深度学习模型构建的:

  • 提取文本,必要时使用 OCR 技术(采用启发式算法和 tesseract 工具) – 检测页面布局(使用 [布局分割器](huggingface.co/vikp/layout_se) 和 [列检测器](huggingface.co/vikp/column_de)
  • 清洗并格式化每一块内容(运用启发式算法和 [nougat](huggingface.co/facebook/nouga)
  • 合并这些块并对整体文本进行后期处理(利用启发式算法和 [pdf后处理器](huggingface.co/vikp/pdf_postp) 依赖自回归前向传递来生成文本的方法通常速度较慢,且容易出现重复或虚假内容。
  • 根据 nougat 论文的研究,这种重复现象在测试集的页面中出现的比例为 1.5%,但在非专业领域的文档中,这一比例会更高。根据我的个人测试,非专业领域(非 arXiv)的页面重复率超过了 5%。
  • 尽管 nougat 模型表现出色,但我还是希望找到一个更快、更适用于普通用途的解决方案。Marker 的转换速度是 nougat 的十倍,因为它只对公式块进行 LLM 前向传递处理,所以几乎没有产生错误幻觉的风险。

    项目地址:github.com/VikParuchuri/m

如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。