Browse Source

fix: 调整 MinerU API 默认参数以优化表格识别效果

- 将 return_middle_json 和 return_content_list 默认设为 true
- 将 return_model_output 默认设为 false
- 将 return_images 默认设为 true
- 将 end_page_id 默认设为 -1
- 优化 DEFAULT_SERVER_URL 默认值为空字符串
- 使程序默认行为与测试成功的 curl 命令保持一致

Co-authored-by: Cursor <cursoragent@cursor.com>
何文松 2 weeks ago
parent
commit
82388ed8a5
2 changed files with 11 additions and 11 deletions
  1. 6 6
      pdf_converter_v2/config.py
  2. 5 5
      pdf_converter_v2/config.yaml

+ 6 - 6
pdf_converter_v2/config.py

@@ -27,15 +27,15 @@ DEFAULT_API_URL = _config.get_str("api_url", "http://127.0.0.1:5282")
 DEFAULT_BACKEND = _config.get_str("backend", "vlm-vllm-async-engine")
 DEFAULT_PARSE_METHOD = _config.get_str("parse_method", "auto")
 DEFAULT_START_PAGE_ID = _config.get_int("start_page_id", 0)
-DEFAULT_END_PAGE_ID = _config.get_int("end_page_id", 99999)
+DEFAULT_END_PAGE_ID = _config.get_int("end_page_id", -1)
 DEFAULT_LANGUAGE = _config.get_str("language", "ch")
 DEFAULT_RESPONSE_FORMAT_ZIP = _config.get_bool("response_format_zip", True)
-DEFAULT_RETURN_MIDDLE_JSON = _config.get_bool("return_middle_json", False)
-DEFAULT_RETURN_MODEL_OUTPUT = _config.get_bool("return_model_output", True)
+DEFAULT_RETURN_MIDDLE_JSON = _config.get_bool("return_middle_json", True)
+DEFAULT_RETURN_MODEL_OUTPUT = _config.get_bool("return_model_output", False)
 DEFAULT_RETURN_MD = _config.get_bool("return_md", True)
-DEFAULT_RETURN_IMAGES = _config.get_bool("return_images", False)
-DEFAULT_RETURN_CONTENT_LIST = _config.get_bool("return_content_list", False)
-DEFAULT_SERVER_URL = os.getenv("SERVER_URL", "string")
+DEFAULT_RETURN_IMAGES = _config.get_bool("return_images", True)
+DEFAULT_RETURN_CONTENT_LIST = _config.get_bool("return_content_list", True)
+DEFAULT_SERVER_URL = os.getenv("SERVER_URL", "")
 
 # PaddleOCR 配置
 PADDLEOCR_CMD = _config.get_str("paddleocr_cmd", "paddleocr")

+ 5 - 5
pdf_converter_v2/config.yaml

@@ -36,7 +36,7 @@ parse_method: "auto"
 start_page_id: 0
 
 # 结束页ID
-end_page_id: 99999
+end_page_id: -1
 
 # 识别语言:ch / en
 language: "ch"
@@ -79,19 +79,19 @@ vl_rec_server_url: "http://172.17.0.1:8118/v1"
 response_format_zip: true
 
 # 是否返回中间JSON
-return_middle_json: false
+return_middle_json: true
 
 # 是否返回模型输出
-return_model_output: true
+return_model_output: false
 
 # 是否返回Markdown
 return_md: true
 
 # 是否返回图片
-return_images: false
+return_images: true
 
 # 是否返回内容列表
-return_content_list: false
+return_content_list: true
 
 # =============================================================================
 # 日志配置(可选)