# PDF Converter V2 - NPU 加速文档解析系统 基于 MinerU 和 PaddleOCR 的 PDF 文档解析系统,支持华为昇腾 NPU 加速。 ## 项目结构 ``` . ├── pdf_converter_v2/ # 主项目代码 │ ├── api/ # FastAPI 接口 │ ├── parser/ # 文档解析器 │ ├── processor/ # 处理器 │ ├── utils/ # 工具函数 │ └── requirements.txt # Python 依赖 ├── mineru/ # MinerU 库 └── service/ # systemd 服务配置 ``` ## 快速开始 ### 1. 宿主机 CPU 模式(推荐) ```bash # 激活虚拟环境 source /root/work/paddle/.venv_paddleocr/bin/activate # 使用 CPU 运行 cd pdf_converter_v2 python main.py --input test/your_file.pdf --device cpu ``` ### 2. Docker NPU 模式 ```bash # 启动 Docker 容器(推荐) bash start_paddleocr_docker_fixed.sh ``` ### 3. MinerU API 调用 ```bash # 启动 API 服务 cd pdf_converter_v2 python api_server.py # 调用 API curl -X POST "http://127.0.0.1:5282/file_parse" \ -F "file=@test/your_file.pdf" \ -F "parse_method=auto" \ -F "is_json_md_dump=true" ``` ## 系统要求 - ARM64 + 华为昇腾 NPU (8x 910B4-1) - CANN 8.5.0.alpha002 - Python 3.10+ - Docker (用于 NPU 模式) ## 文档 详细文档请参见 `pdf_converter_v2/README.md`