hewensong/Clerk2.5

Эзэн	SHA1 Мессеж	Огноо
何文松	386d5b0359 feat: 添加 GPU 显存检测和 MinerU 服务自动控制	2 өдөр өмнө
何文松	8c60c709d6 refactor: 使用独立脚本调用 PaddleOCR，避免显存共享问题	2 өдөр өмнө
何文松	5c5a032fbd fix: 修改 call_paddleocr 函数使用 Python API	2 өдөр өмнө
何文松	4c4a7c4acb refactor: 移除 PaddleOCR 命令行调用，只使用 Python API	2 өдөр өмнө
何文松	deaa0bfefe feat: 添加 PaddleOCR Python API 支持（暂时禁用，显存不足）	2 өдөр өмнө
何文松	de7b25c053 feat: 使用 PaddleOCR Python API 替代命令行方式，支持图表识别和纯文本识别	2 өдөр өмнө
何文松	0282fe550c Revert "fix: 未配置 VL 后端时使用传统 ocr 命令，避免加载 VL 模型导致 OOM"	2 өдөр өмнө
何文松	415a260763 fix: 未配置 VL 后端时使用传统 ocr 命令，避免加载 VL 模型导致 OOM	2 өдөр өмнө
何文松	77d654abda perf: 降低 GPU 内存利用率至 0.4 为 PaddleOCR VL 预留显存	2 өдөр өмнө
何文松	bf3482857f fix: 修正 NVIDIA backend 为 vlm-vllm-async-engine	2 өдөр өмнө
何文松	57bd09db47 fix: 修正 NVIDIA 环境 backend 名称为 vlm-async-engine	2 өдөр өмнө
何文松	600bdb85e2 fix: PaddleOCR命令自动检测venv路径 + 添加PDF OCR测试	1 долоо хоног өмнө
何文松	ace7956efd fix: converter.py 使用 config.yaml 的 backend/server_url 等配置，不再硬编码默认值	3 долоо хоног өмнө
何文松	dcc86d8002 feat: 添加 /pdf_to_markdown 测试脚本；config.yaml 配置 vlm-http-client backend	3 долоо хоног өмнө
何文松	95ee7ca577 refactor: 附件切割OCR只保留Tesseract，移除PaddleOCR fallback；test_api适配anyuan环境	3 долоо хоног өмнө
何文松	17e3a4454b fix(电磁检测): 修复线高与检测时间重复、测量值1错位	3 долоо хоног өмнө
何文松	3e01997cc1 feat(电磁检测): 工频电场磁场检测结果中线高为空时默认为1.5	3 долоо хоног өмнө
何文松	f382f9f7a4 fix(电磁检测): 监测地点续行合并时不再插入空格	3 долоо хоног өмнө
何文松	e3e30d91f3 fix(电磁): 监测地点续行合并仅当除第二列外其余列均为空时触发	3 долоо хоног өмнө
何文松	bd336ace01 feat(电磁): 首列为空且第二列为地名时合并到上一条监测地点	3 долоо хоног өмнө
何文松	c8d3f04f05 feat: 识别异常时用Paddle解析全文档（full_document+extract_all_pages_from_pdf）	3 долоо хоног өмнө
何文松	e69dff9ab7 feat: 检测MinerU识别异常（同字重复）时用Paddle doc_parser结果替换markdown再解析	3 долоо хоног өмнө
何文松	81e98c0a90 fix: 备用解析时内容为图片但扩展名为.pdf则复制为正确扩展名再调doc_parser，避免PDFium Data format error	3 долоо хоног өмнө
何文松	2dd570737c chore: 移除 PaddleOCR 子进程 LD_PRELOAD/static TLS 逻辑	3 долоо хоног өмнө
何文松	974d87f967 chore: 日志中区分图表识别与文本识别（[PaddleOCR 图表识别] / [PaddleOCR 文本识别]）	3 долоо хоног өмнө
何文松	f6c245facc refactor: 将 call_paddleocr_ocr 改为使用不识别图表的 doc_parser 替代 ocr 子命令	3 долоо хоног өмнө
何文松	fc1eee41c5 feat: 添加独立的推理服务和业务 API 启动脚本	3 долоо хоног өмнө
何文松	ab1eda8d5d fix: 恢复 PDF 切割逻辑并修复 SyntaxError (非法字符)	3 долоо хоног өмнө
何文松	96efa2f607 fix: 适配 MinerU API 调用逻辑并移除投资估算类型的自动切割预处理	3 долоо хоног өмнө
何文松	82388ed8a5 fix: 调整 MinerU API 默认参数以优化表格识别效果	3 долоо хоног өмнө

Шинэ Хуучин

Коммит түүх Хайх

Коммит түүх