|
@@ -0,0 +1,62 @@
|
|
|
|
|
+# PDF Converter V2 - NPU 加速文档解析系统
|
|
|
|
|
+
|
|
|
|
|
+基于 MinerU 和 PaddleOCR 的 PDF 文档解析系统,支持华为昇腾 NPU 加速。
|
|
|
|
|
+
|
|
|
|
|
+## 项目结构
|
|
|
|
|
+
|
|
|
|
|
+```
|
|
|
|
|
+.
|
|
|
|
|
+├── pdf_converter_v2/ # 主项目代码
|
|
|
|
|
+│ ├── api/ # FastAPI 接口
|
|
|
|
|
+│ ├── parser/ # 文档解析器
|
|
|
|
|
+│ ├── processor/ # 处理器
|
|
|
|
|
+│ ├── utils/ # 工具函数
|
|
|
|
|
+│ └── requirements.txt # Python 依赖
|
|
|
|
|
+├── mineru/ # MinerU 库
|
|
|
|
|
+└── service/ # systemd 服务配置
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+## 快速开始
|
|
|
|
|
+
|
|
|
|
|
+### 1. 宿主机 CPU 模式(推荐)
|
|
|
|
|
+
|
|
|
|
|
+```bash
|
|
|
|
|
+# 激活虚拟环境
|
|
|
|
|
+source /root/work/paddle/.venv_paddleocr/bin/activate
|
|
|
|
|
+
|
|
|
|
|
+# 使用 CPU 运行
|
|
|
|
|
+cd pdf_converter_v2
|
|
|
|
|
+python main.py --input test/your_file.pdf --device cpu
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+### 2. Docker NPU 模式
|
|
|
|
|
+
|
|
|
|
|
+```bash
|
|
|
|
|
+# 启动 Docker 容器(推荐)
|
|
|
|
|
+bash start_paddleocr_docker_fixed.sh
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+### 3. MinerU API 调用
|
|
|
|
|
+
|
|
|
|
|
+```bash
|
|
|
|
|
+# 启动 API 服务
|
|
|
|
|
+cd pdf_converter_v2
|
|
|
|
|
+python api_server.py
|
|
|
|
|
+
|
|
|
|
|
+# 调用 API
|
|
|
|
|
+curl -X POST "http://127.0.0.1:5282/file_parse" \
|
|
|
|
|
+ -F "file=@test/your_file.pdf" \
|
|
|
|
|
+ -F "parse_method=auto" \
|
|
|
|
|
+ -F "is_json_md_dump=true"
|
|
|
|
|
+```
|
|
|
|
|
+
|
|
|
|
|
+## 系统要求
|
|
|
|
|
+
|
|
|
|
|
+- ARM64 + 华为昇腾 NPU (8x 910B4-1)
|
|
|
|
|
+- CANN 8.5.0.alpha002
|
|
|
|
|
+- Python 3.10+
|
|
|
|
|
+- Docker (用于 NPU 模式)
|
|
|
|
|
+
|
|
|
|
|
+## 文档
|
|
|
|
|
+
|
|
|
|
|
+详细文档请参见 `pdf_converter_v2/README.md`
|