Преглед на файлове

fix: 禁用 Qwen3 思考模式,增加 token 限制至 20480

- 设置 think: false 禁用思考模式,直接输出 JSON
- 增加 num_predict 从 2048 到 20480,确保输出完整
何文松 преди 1 месец
родител
ревизия
7eacaddc9f
променени са 1 файла, в които са добавени 4 реда и са изтрити 3 реда
  1. 4 3
      python-services/ner-service/app/services/ollama_service.py

+ 4 - 3
python-services/ner-service/app/services/ollama_service.py

@@ -112,12 +112,13 @@ class OllamaService:
             "stream": False,
             "options": {
                 "temperature": 0.1,  # 低温度,更确定性的输出
-                "num_predict": 2048,  # 最大输出 token
+                "num_predict": 20480,  # 最大输出 token
             }
         }
         
-        # Qwen3 思考模式:保留思考能力,解析时提取最终结果
-        # 如需禁用思考,可设置 payload["think"] = False
+        # Qwen3 思考模式:禁用思考,直接输出 JSON 结果
+        # 思考模式会导致 token 用于推理过程,无法输出最终结果
+        payload["think"] = False
         
         try:
             async with httpx.AsyncClient(timeout=self.timeout) as client: