requirements.txt 1.7 KB

12345678910111213141516171819202122232425262728293031323334353637
  1. # PDF Converter v2 - 核心依赖
  2. # 基础功能所需的依赖,不包含可选的 OCR
  3. # ========== Web API(运行 API 服务必装) ==========
  4. fastapi>=0.100.0
  5. uvicorn[standard]>=0.23.0
  6. pydantic>=2.0.0
  7. typing-extensions>=4.0.0
  8. python-multipart>=0.0.6
  9. # ========== 异步与 HTTP ==========
  10. aiohttp>=3.8.0 # 调用 MinerU file_parse、重试上传
  11. aiofiles>=23.0.0 # 异步读写文件(converter 解压/写 md)
  12. # ========== 图片处理 ==========
  13. Pillow>=9.0.0 # 图片处理(converter、parser、test_no、pdf_watermark_remover)
  14. numpy>=1.20.0,<2.0.0 # image_preprocessor 去水印/裁剪页眉页脚(限制 <2.0 避免兼容性问题)
  15. opencv-python>=4.5.0 # image_preprocessor(去水印、裁剪)、pdf_watermark_remover 依赖
  16. # ========== PDF 处理 ==========
  17. PyPDF2>=3.0.0 # 必装:pdf_splitter 按页切割、pdf_watermark_remover、test_no 附件切割
  18. pypdfium2>=4.0.0 # paddleocr_fallback 从 PDF 提图(优先);可选,无则用 pdf2image
  19. pdf2image>=1.16.0 # pdf_watermark_remover PDF→图→PDF;paddleocr_fallback 备用提图(需系统 poppler)
  20. pdfplumber>=0.11.0 # table_extractor 表格提取、file_utils 检测 PDF 文本层、test_no
  21. # ========== 表格提取(/convert 结算报告/设计评审等类型) ==========
  22. pandas>=1.3.0 # table_extractor 表格数据处理
  23. openpyxl>=3.0.0 # Excel 文件读写
  24. # ========== 日志 ==========
  25. loguru>=0.7.0
  26. # ========== 配置文件 ==========
  27. pyyaml>=6.0.0 # YAML 格式配置文件支持(可选,JSON 格式无需此依赖)
  28. # ========== HTTP 客户端(测试用) ==========
  29. requests>=2.28.0 # test_api.py 调用接口时需要