使用 ocrmypdf 把 pdf 文件变成可搜索的工具

603次阅读
没有评论

共计 576 个字符,预计需要花费 2 分钟才能阅读完成。

很多 pdf 是图片导出 pdf 文件,此时如果想要进行搜索和复制是没有办法的。接下要介绍的是 orrcmypdf 工具,这个工具能即将你的 pdf 变成可搜索可复制的工具。

开源项目地址:https://github.com/ocrmypdf/OCRmyPDF

如果你只是想简单试一下效果,将 test.pdf 修改为你的 pdf 文件名,并放在当前目录下。

# 如果文档是中文
docker run  -it --rm -v $PWD:/app jbarlow83/ocrmypdf -l chi_sim test.pdf test_orc.pdf
# 如果文档全是英文
docker run  -it --rm -v $PWD:/app jbarlow83/ocrmypdf  test.pdf test_orc.pdf
# 如果文档有多种语言,-l 参数后面可以加多种语言
docker run  -it --rm -v $PWD:/app jbarlow83/ocrmypdf -l eng+deu test.pdf test_orc.pdf

运行这个命令,将在本目录下生成一个 test_orc.pdf 文件,那么这个文件就是可以搜索和复制的啦。

目前该工具默认是识别英文,对英文效果会比较好,中文的话复制会有空格,目前还没有解决方案,有兴趣的可以查看下 issue:https://github.com/ocrmypdf/OCRmyPDF/issues/715

提醒:本文发布于239天前,文中所关联的信息可能已发生改变,请知悉!

AD:【腾讯云服务器大降价】2核4G 222元/3年 1核2G 38元/年
正文完
 
阿蛮君
版权声明:本站原创文章,由 阿蛮君 2023-06-30发表,共计576字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)
Copyright © 2022-2024 阿蛮君博客 湘ICP备2023001393号
本网站由 亿信互联 提供云计算服务 | 蓝易云CDN 提供安全防护和加速服务