hewensong
/
Clerk2.5


			
				
					
						
						
							12345678910111213141516171819202122232425262728293031323334353637
							# PDF Converter v2 - 核心依赖
# 基础功能所需的依赖，不包含可选的 OCR

# ========== Web API（运行 API 服务必装） ==========
fastapi>=0.100.0
uvicorn[standard]>=0.23.0
pydantic>=2.0.0
typing-extensions>=4.0.0
python-multipart>=0.0.6

# ========== 异步与 HTTP ==========
aiohttp>=3.8.0          # 调用 MinerU file_parse、重试上传
aiofiles>=23.0.0        # 异步读写文件（converter 解压/写 md）

# ========== 图片处理 ==========
Pillow>=9.0.0           # 图片处理（converter、parser、test_no、pdf_watermark_remover）
numpy>=1.20.0,<2.0.0    # image_preprocessor 去水印/裁剪页眉页脚（限制 <2.0 避免兼容性问题）
opencv-python>=4.5.0    # image_preprocessor（去水印、裁剪）、pdf_watermark_remover 依赖

# ========== PDF 处理 ==========
PyPDF2>=3.0.0           # 必装：pdf_splitter 按页切割、pdf_watermark_remover、test_no 附件切割
pypdfium2>=4.0.0        # paddleocr_fallback 从 PDF 提图（优先）；可选，无则用 pdf2image
pdf2image>=1.16.0       # pdf_watermark_remover PDF→图→PDF；paddleocr_fallback 备用提图（需系统 poppler）
pdfplumber>=0.11.0      # table_extractor 表格提取、file_utils 检测 PDF 文本层、test_no

# ========== 表格提取（/convert 结算报告/设计评审等类型） ==========
pandas>=1.3.0           # table_extractor 表格数据处理
openpyxl>=3.0.0         # Excel 文件读写

# ========== 日志 ==========
loguru>=0.7.0

# ========== 配置文件 ==========
pyyaml>=6.0.0          # YAML 格式配置文件支持（可选，JSON 格式无需此依赖）

# ========== HTTP 客户端（测试用） ==========
requests>=2.28.0        # test_api.py 调用接口时需要