# PDF Converter v2 配置文件 # 所有配置项均为可选,未指定时将使用默认值 # ============================================================================= # 设备环境配置 # ============================================================================= # 设备类型:nvi(NVIDIA GPU)/ npu(华为昇腾 NPU)/ cpu # 留空则自动检测 device_kind: "" # ============================================================================= # 默认模型配置 # ============================================================================= # 默认模型名称 default_model_name: "OpenDataLab/MinerU2.5-2509-1.2B" # GPU 内存利用率(0.0-1.0) default_gpu_memory_utilization: 0.9 # DPI 设置 default_dpi: 200 # 最大页数限制 default_max_pages: 10 # ============================================================================= # API 配置 # ============================================================================= # MinerU API 服务地址 api_url: "http://127.0.0.1:5282" # 处理后端:vlm-vllm-async-engine / pipeline backend: "vlm-vllm-async-engine" # 解析方法:auto / txt / ocr parse_method: "auto" # 起始页ID(从0开始) start_page_id: 0 # 结束页ID end_page_id: 99999 # 识别语言:ch / en language: "ch" # 服务器URL server_url: "string" # ============================================================================= # API 服务启动配置 # ============================================================================= # API 服务监听地址 api_host: "0.0.0.0" # API 服务监听端口 api_port: 4214 # ============================================================================= # MinerU 服务管理配置 # ============================================================================= # MinerU API 内部地址(用于健康检查) mineru_api_host: "127.0.0.1" # MinerU API 内部端口 mineru_api_port: 5282 # 空闲超时时间(秒),超过此时间无任务则停止服务 mineru_idle_timeout: 60 # 检查间隔(秒) mineru_check_interval: 60 # 服务启动等待超时(秒) mineru_start_timeout: 120 # ============================================================================= # PaddleOCR 配置 # ============================================================================= # PaddleOCR 可执行命令或路径 paddleocr_cmd: "paddleocr" # PaddleOCR 推理设备 (例如 "npu:0", "cuda:0", "cpu") # 留空则根据环境自动选择 paddle_ocr_device: "" # PaddleOCR 多卡推理设备 (例如 "npu:0,npu:1") paddle_ocr_devices: "" # PaddleOCR 文档解析命令 paddle_doc_parser_cmd: "paddleocr" # ============================================================================= # 返回格式配置 # ============================================================================= # 是否返回ZIP格式 response_format_zip: true # 是否返回中间JSON return_middle_json: false # 是否返回模型输出 return_model_output: true # 是否返回Markdown return_md: true # 是否返回图片 return_images: false # 是否返回内容列表 return_content_list: false # ============================================================================= # 日志配置(可选) # ============================================================================= # 日志目录 log_dir: "./logs" # 日志级别:DEBUG / INFO / WARNING / ERROR log_level: "INFO" # 是否记录到文件 log_to_file: true # 是否输出到控制台 log_to_console: true