| 12345678910111213141516171819202122232425262728293031323334353637 |
- # PDF Converter v2 - 核心依赖
- # 基础功能所需的依赖,不包含可选的 OCR
- # ========== Web API(运行 API 服务必装) ==========
- fastapi>=0.100.0
- uvicorn[standard]>=0.23.0
- pydantic>=2.0.0
- typing-extensions>=4.0.0
- python-multipart>=0.0.6
- # ========== 异步与 HTTP ==========
- aiohttp>=3.8.0 # 调用 MinerU file_parse、重试上传
- aiofiles>=23.0.0 # 异步读写文件(converter 解压/写 md)
- # ========== 图片处理 ==========
- Pillow>=9.0.0 # 图片处理(converter、parser、test_no、pdf_watermark_remover)
- numpy>=1.20.0,<2.0.0 # image_preprocessor 去水印/裁剪页眉页脚(限制 <2.0 避免兼容性问题)
- opencv-python>=4.5.0 # image_preprocessor(去水印、裁剪)、pdf_watermark_remover 依赖
- # ========== PDF 处理 ==========
- PyPDF2>=3.0.0 # 必装:pdf_splitter 按页切割、pdf_watermark_remover、test_no 附件切割
- pypdfium2>=4.0.0 # paddleocr_fallback 从 PDF 提图(优先);可选,无则用 pdf2image
- pdf2image>=1.16.0 # pdf_watermark_remover PDF→图→PDF;paddleocr_fallback 备用提图(需系统 poppler)
- pdfplumber>=0.11.0 # table_extractor 表格提取、file_utils 检测 PDF 文本层、test_no
- # ========== 表格提取(/convert 结算报告/设计评审等类型) ==========
- pandas>=1.3.0 # table_extractor 表格数据处理
- openpyxl>=3.0.0 # Excel 文件读写
- # ========== 日志 ==========
- loguru>=0.7.0
- # ========== 配置文件 ==========
- pyyaml>=6.0.0 # YAML 格式配置文件支持(可选,JSON 格式无需此依赖)
- # ========== HTTP 客户端(测试用) ==========
- requests>=2.28.0 # test_api.py 调用接口时需要
|