Stirling-PDF是一款被誉为“PDF的瑞士军刀”的开源PDF工具,功能强大,适用于个人用户、企业和开发者,在批量处理或自动化PDF操作时优势明显。
一、主要功能
- PDF转换:
- 支持将PDF转换为word、PPT、图片(如PNG、JPG等格式)。
- 可将图片或HTML转换为PDF。
- PDF编辑:
- 能添加水印。
- 可合并多个PDF文件,也能拆分PDF文件。
- OCR(光学字符识别):
- 使用Tesseract OCR引擎,能识别PDF或图像中的文本,且支持多种语言,包括中文。
- 安全性管理:
- 可设置或移除PDF密码,还能加密PDF文件。
- 压缩PDF:
- 能够减少PDF文件大小,方便存储和共享。
- 其他高级功能:
- 可进行页面裁剪、旋转操作。
- 能提取文本、图片或元数据。
- 支持批量处理PDF文件,有效提高工作效率。
二、安装使用(Compose安装Stirling-PDF)
- 创建文件夹:
- 先在任意位置创建一个
pdf
文件夹,用于存放docker-compose.yaml文件。
- 先在任意位置创建一个
- 构建项目:
- 使用docker的compose方式构建,点击新增项目。
- 输入项目名称,路径选择刚刚创建的pdf文件夹,点击创建。
- 将以下代码拷贝进docker-compose.yml(注意要把其中/vol1/1000/docker/pdf/trainingData、/vol1/1000/docker/pdf/extraConfigs、/vol1/1000/docker/pdf/logs、/vol1/1000/docker/pdf/customFiles路径换成自己的):
version: '3.3' services: stirling-pdf: container_name: Stirling-PDF # 容器名称 image: frooodle/s-pdf:latest # 使用的镜像,最新版本 ports: - "8750:8080" # 映射端口,本地的8750映射到容器的8080 volumes: # 数据卷挂载,将宿主机目录挂载到容器内部 - /vol1/1000/docker/pdf/trainingData:/usr/share/tessdata # 用于OCR模型的训练数据 - /vol1/1000/docker/pdf/extraConfigs:/configs # 存储容器的配置文件 - /vol1/1000/docker/pdf/logs:/logs # 存储容器的日志文件 - /vol1/1000/docker/pdf/customFiles:/customFiles # 存储用户自定义文件 environment: DOCKER_ENABLE_SECURITY: "true" # 启用容器的安全模式 SECURITY_ENABLELOGIN: "true" # 禁用登录功能,无需验证即可访问 SECURITY_INITIALLOGIN_USERNAME: zhixinfang # Stirling-PDF登录账号 SECURITY_INITIALLOGIN_PASSWORD: zhixinfang # Stirling-PDF登录密码 SYSTEM_DEFAULTLOCALE: zh-CN # 设置系统默认语言为简体中文 UI_APPNAME: 季春二九PDF # 设置应用程序名称 UI_HOMEDESCRIPTION: 季春二九PDF # 设置首页的描述文字 UI_APPNAMENAVBAR: 季春二九PDF # 设置导航栏的名称 SYSTEM_MAXFILESIZE: "500" # 设置文件上传的最大尺寸(单位:MB) INSTALL_BOOK_AND_ADVANCED_HTML_OPS: "false" # 禁用书籍和高级 HTML操作功能 restart: on-failure:3 # 配置重启策略,仅在失败时重启,最多尝试3次
- 复制代码运行报错的,请在浏览器打开文章后再复制。要仔细看代码里面的注释,根据自己的需求修改。
- 上述代码默认设置的是登录后使用,如果想不登录直接使用,请把
DOCKER_ENABLE_SECURITY: "true"
和SECURITY_ENABLELOGIN: "true"
这两行代码中的true
改成false
,或者部署好后去容器修改环境变量也可以。
- 下载OCR中文模型:
- OCR扫描需要自行下载中文模型。
- 下载地址:https://github.com/tesseract-ocr/tessdata/tree/main,打开后找到下面五个模型下载下来上传到trainingData文件夹下:
- eng.traineddat
- chi_sim.traineddat
- chi_tra.traineddat
- chi_sim_vert.traineddat
- chi_tra_vert.traineddata
- 其中
sim
是简体中文、tra
繁体中文,eng
是英文(English)文本,带vert
的文件为竖排版模型,若还需要其他模型可根据需求自行下载。 - 参考文档链接:https://github.com/Stirling-Tools/Stirling-PDF/blob/main/HowToUseOCR.md
- 登录使用:
- 访问浏览器打开http://ip:8750,输入设置的账号密码登录,这样就可以使用了,经测试几乎没问题,且比市面上的强太多了。
- THE END -
最后修改:2025年8月1日
非特殊说明,本博所有文章均为博主原创。
如若转载,请注明出处:https://blog.jichun29.cn/4141.html
共有 0 条评论