何文松
|
386d5b0359
feat: 添加 GPU 显存检测和 MinerU 服务自动控制
|
2 өдөр өмнө |
何文松
|
8c60c709d6
refactor: 使用独立脚本调用 PaddleOCR,避免显存共享问题
|
2 өдөр өмнө |
何文松
|
5c5a032fbd
fix: 修改 call_paddleocr 函数使用 Python API
|
2 өдөр өмнө |
何文松
|
4c4a7c4acb
refactor: 移除 PaddleOCR 命令行调用,只使用 Python API
|
2 өдөр өмнө |
何文松
|
deaa0bfefe
feat: 添加 PaddleOCR Python API 支持(暂时禁用,显存不足)
|
2 өдөр өмнө |
何文松
|
de7b25c053
feat: 使用 PaddleOCR Python API 替代命令行方式,支持图表识别和纯文本识别
|
2 өдөр өмнө |
何文松
|
0282fe550c
Revert "fix: 未配置 VL 后端时使用传统 ocr 命令,避免加载 VL 模型导致 OOM"
|
2 өдөр өмнө |
何文松
|
415a260763
fix: 未配置 VL 后端时使用传统 ocr 命令,避免加载 VL 模型导致 OOM
|
2 өдөр өмнө |
何文松
|
77d654abda
perf: 降低 GPU 内存利用率至 0.4 为 PaddleOCR VL 预留显存
|
2 өдөр өмнө |
何文松
|
bf3482857f
fix: 修正 NVIDIA backend 为 vlm-vllm-async-engine
|
2 өдөр өмнө |
何文松
|
57bd09db47
fix: 修正 NVIDIA 环境 backend 名称为 vlm-async-engine
|
2 өдөр өмнө |
何文松
|
600bdb85e2
fix: PaddleOCR命令自动检测venv路径 + 添加PDF OCR测试
|
1 долоо хоног өмнө |
何文松
|
ace7956efd
fix: converter.py 使用 config.yaml 的 backend/server_url 等配置,不再硬编码默认值
|
3 долоо хоног өмнө |
何文松
|
dcc86d8002
feat: 添加 /pdf_to_markdown 测试脚本;config.yaml 配置 vlm-http-client backend
|
3 долоо хоног өмнө |
何文松
|
95ee7ca577
refactor: 附件切割OCR只保留Tesseract,移除PaddleOCR fallback;test_api适配anyuan环境
|
3 долоо хоног өмнө |
何文松
|
17e3a4454b
fix(电磁检测): 修复线高与检测时间重复、测量值1错位
|
3 долоо хоног өмнө |
何文松
|
3e01997cc1
feat(电磁检测): 工频电场磁场检测结果中线高为空时默认为1.5
|
3 долоо хоног өмнө |
何文松
|
f382f9f7a4
fix(电磁检测): 监测地点续行合并时不再插入空格
|
3 долоо хоног өмнө |
何文松
|
e3e30d91f3
fix(电磁): 监测地点续行合并仅当除第二列外其余列均为空时触发
|
3 долоо хоног өмнө |
何文松
|
bd336ace01
feat(电磁): 首列为空且第二列为地名时合并到上一条监测地点
|
3 долоо хоног өмнө |
何文松
|
c8d3f04f05
feat: 识别异常时用Paddle解析全文档(full_document+extract_all_pages_from_pdf)
|
3 долоо хоног өмнө |
何文松
|
e69dff9ab7
feat: 检测MinerU识别异常(同字重复)时用Paddle doc_parser结果替换markdown再解析
|
3 долоо хоног өмнө |
何文松
|
81e98c0a90
fix: 备用解析时内容为图片但扩展名为.pdf则复制为正确扩展名再调doc_parser,避免PDFium Data format error
|
3 долоо хоног өмнө |
何文松
|
2dd570737c
chore: 移除 PaddleOCR 子进程 LD_PRELOAD/static TLS 逻辑
|
3 долоо хоног өмнө |
何文松
|
974d87f967
chore: 日志中区分图表识别与文本识别([PaddleOCR 图表识别] / [PaddleOCR 文本识别])
|
3 долоо хоног өмнө |
何文松
|
f6c245facc
refactor: 将 call_paddleocr_ocr 改为使用不识别图表的 doc_parser 替代 ocr 子命令
|
3 долоо хоног өмнө |
何文松
|
fc1eee41c5
feat: 添加独立的推理服务和业务 API 启动脚本
|
3 долоо хоног өмнө |
何文松
|
ab1eda8d5d
fix: 恢复 PDF 切割逻辑并修复 SyntaxError (非法字符)
|
3 долоо хоног өмнө |
何文松
|
96efa2f607
fix: 适配 MinerU API 调用逻辑并移除投资估算类型的自动切割预处理
|
3 долоо хоног өмнө |
何文松
|
82388ed8a5
fix: 调整 MinerU API 默认参数以优化表格识别效果
|
3 долоо хоног өмнө |