|
|
vor 1 Woche | |
|---|---|---|
| mineru | vor 3 Wochen | |
| pdf_converter_v2 | vor 1 Woche | |
| service | vor 3 Wochen | |
| .gitignore | vor 4 Wochen | |
| README.md | vor 2 Wochen | |
| start_api.sh | vor 2 Wochen | |
| start_api_in_container.sh | vor 3 Wochen | |
| start_inference.sh | vor 2 Wochen | |
| start_mineru_in_container.sh | vor 3 Wochen |
基于 MinerU 和 PaddleOCR 的 PDF 文档解析系统,支持华为昇腾 NPU 加速。
.
├── pdf_converter_v2/ # 主项目代码
│ ├── api/ # FastAPI 接口
│ ├── parser/ # 文档解析器
│ ├── processor/ # 处理器
│ ├── utils/ # 工具函数
│ └── requirements.txt # Python 依赖
├── mineru/ # MinerU 库
└── service/ # systemd 服务配置
# 激活虚拟环境
source /root/work/paddle/.venv_paddleocr/bin/activate
# 使用 CPU 运行
cd pdf_converter_v2
python main.py --input test/your_file.pdf --device cpu
# 启动 Docker 容器(推荐)
bash start_paddleocr_docker_fixed.sh
# 启动 API 服务
cd pdf_converter_v2
python api_server.py
# 调用 API
curl -X POST "http://127.0.0.1:5282/file_parse" \
-F "file=@test/your_file.pdf" \
-F "parse_method=auto" \
-F "is_json_md_dump=true"
详细文档请参见 pdf_converter_v2/README.md