1 month ago · 61eb71bc19
--- a/python-services/ner-service/.env.example
+++ b/python-services/ner-service/.env.example
@@ -0,0 +1,58 @@
 
				+# NER 服务环境配置
			
 
				+
			
 
				+# ============================================
			
 
				+# NER 模型配置
			
 
				+# ============================================
			
 
				+# 可选值: rule / ollama / spacy / transformers / api
			
 
				+# - rule: 基于规则的简单 NER（开发测试用，速度快但准确率低）
			
 
				+# - ollama: 使用本地 Ollama LLM（推荐生产环境，准确率高）
			
 
				+# - api: 使用远程 API（如百炼、DeepSeek）
			
 
				+NER_MODEL=ollama
			
 
				+
			
 
				+# ============================================
			
 
				+# Ollama 配置（当 NER_MODEL=ollama 时使用）
			
 
				+# ============================================
			
 
				+# Ollama 服务地址
			
 
				+OLLAMA_URL=http://localhost:11434
			
 
				+
			
 
				+# 使用的模型（推荐中文 NER）
			
 
				+# - qwen2.5:7b（推荐，中文能力最强）
			
 
				+# - qwen2.5:14b（更强，需要更多显存）
			
 
				+# - llama3.1:8b（英文较好）
			
 
				+OLLAMA_MODEL=qwen2.5:7b
			
 
				+
			
 
				+# 请求超时时间（秒）
			
 
				+OLLAMA_TIMEOUT=120
			
 
				+
			
 
				+# ============================================
			
 
				+# 文本分块配置（长文本处理）
			
 
				+# ============================================
			
 
				+# 每个分块的最大字符数
			
 
				+CHUNK_SIZE=2000
			
 
				+
			
 
				+# 分块重叠字符数（避免实体被截断）
			
 
				+CHUNK_OVERLAP=200
			
 
				+
			
 
				+# ============================================
			
 
				+# API 配置（当 NER_MODEL=api 时使用）
			
 
				+# ============================================
			
 
				+# API 基础 URL
			
 
				+# API_BASE_URL=https://dashscope.aliyuncs.com/compatible-mode/v1
			
 
				+
			
 
				+# API 密钥
			
 
				+# API_KEY=your-api-key
			
 
				+
			
 
				+# API 模型
			
 
				+# API_MODEL=qwen-plus
			
 
				+
			
 
				+# ============================================
			
 
				+# 日志配置
			
 
				+# ============================================
			
 
				+LOG_LEVEL=INFO
			
 
				+
			
 
				+# ============================================
			
 
				+# 服务配置
			
 
				+# ============================================
			
 
				+HOST=0.0.0.0
			
 
				+PORT=8001
			
 
				+DEBUG=false
			
--- a/python-services/ner-service/README.md
+++ b/python-services/ner-service/README.md
@@ -6,18 +6,52 @@
 
				 
			
 
				 - 实体提取：从文本中识别人名、机构、地点、日期、数值、设备等实体
			
 
				 - 关系抽取：从实体间抽取语义关系
			
 
				-- 多模式支持：规则模式（开发）、spaCy、Transformers、API
			
 
				+- 多模式支持：
			
 
				+  - **rule**：基于规则的简单 NER（开发测试用，速度快但准确率低）
			
 
				+  - **ollama**：使用本地 Ollama LLM（推荐生产环境，准确率高）
			
 
				+  - **api**：使用远程 API（如百炼、DeepSeek）
			
 
				+- 长文本自动分块处理
			
 
				 
			
 
				 ## 快速开始
			
 
				 
			
 
				-### 本地运行
			
 
				+### 1. 安装依赖
			
 
				 
			
 
				 ```bash
			
 
				-# 安装依赖
			
 
				+cd python-services/ner-service
			
 
				 pip install -r requirements.txt
			
 
				+```
			
 
				+
			
 
				+### 2. 配置环境
			
 
				+
			
 
				+```bash
			
 
				+# 复制配置文件
			
 
				+cp .env.example .env
			
 
				 
			
 
				-# 启动服务
			
 
				-uvicorn app.main:app --host 0.0.0.0 --port 8001 --reload
			
 
				+# 编辑配置（选择 NER 模式）
			
 
				+vim .env
			
 
				+```
			
 
				+
			
 
				+### 3. 启动服务
			
 
				+
			
 
				+```bash
			
 
				+# 规则模式（默认，用于开发测试）
			
 
				+NER_MODEL=rule uvicorn app.main:app --host 0.0.0.0 --port 8001
			
 
				+
			
 
				+# Ollama LLM 模式（推荐生产环境）
			
 
				+NER_MODEL=ollama OLLAMA_MODEL=qwen2.5:7b uvicorn app.main:app --host 0.0.0.0 --port 8001
			
 
				+```
			
 
				+
			
 
				+### 4. 确保 Ollama 服务可用（如使用 ollama 模式）
			
 
				+
			
 
				+```bash
			
 
				+# 安装 Ollama（如未安装）
			
 
				+curl -fsSL https://ollama.com/install.sh | sh
			
 
				+
			
 
				+# 拉取推荐模型
			
 
				+ollama pull qwen2.5:7b
			
 
				+
			
 
				+# 确认服务运行
			
 
				+curl http://localhost:11434/api/tags
			
 
				 ```
			
 
				 
			
 
				 ## API 接口
			
@@ -82,22 +116,49 @@ Content-Type: application/json
 
				 
			
 
				 ## 配置说明
			
 
				 
			
 
				+### 基础配置
			
 
				+
			
 
				 | 配置项 | 说明 | 默认值 |
			
 
				 |--------|------|--------|
			
 
				-| NER_MODEL | NER 模型类型 | rule |
			
 
				-| USE_GPU | 是否使用 GPU | false |
			
 
				-| MAX_TEXT_LENGTH | 最大文本长度 | 50000 |
			
 
				+| NER_MODEL | NER 模型类型 (rule/ollama/api) | rule |
			
 
				 | LOG_LEVEL | 日志级别 | INFO |
			
 
				+| MAX_TEXT_LENGTH | 最大文本长度 | 50000 |
			
 
				+
			
 
				+### Ollama 模式配置
			
 
				+
			
 
				+| 配置项 | 说明 | 默认值 |
			
 
				+|--------|------|--------|
			
 
				+| OLLAMA_URL | Ollama 服务地址 | http://localhost:11434 |
			
 
				+| OLLAMA_MODEL | 使用的模型 | qwen2.5:7b |
			
 
				+| OLLAMA_TIMEOUT | 请求超时（秒） | 120 |
			
 
				+| CHUNK_SIZE | 分块大小（字符） | 2000 |
			
 
				+| CHUNK_OVERLAP | 分块重叠（字符） | 200 |
			
 
				+
			
 
				+### 推荐模型
			
 
				+
			
 
				+| 模型 | 大小 | 中文能力 | 推荐场景 |
			
 
				+|------|------|----------|----------|
			
 
				+| qwen2.5:7b | ~4.7GB | ⭐⭐⭐⭐⭐ | 推荐，中文最强 |
			
 
				+| qwen2.5:14b | ~9GB | ⭐⭐⭐⭐⭐ | 显存充足时 |
			
 
				+| llama3.1:8b | ~4.7GB | ⭐⭐⭐ | 英文为主 |
			
 
				 
			
 
				 ## 测试
			
 
				 
			
 
				 ```bash
			
 
				+# 运行测试
			
 
				 pytest tests/ -v
			
 
				+
			
 
				+# 手动测试 NER
			
 
				+curl -X POST http://localhost:8001/ner/extract \
			
 
				+  -H "Content-Type: application/json" \
			
 
				+  -d '{"documentId":"test", "text":"2024年5月15日，成都检测公司完成了环境监测项目", "extractRelations": true}'
			
 
				 ```
			
 
				 
			
 
				 ## 开发计划
			
 
				 
			
 
				+- [x] 基于规则的 NER
			
 
				+- [x] Ollama LLM 模式（支持长文本分块）
			
 
				 - [ ] 集成 spaCy 中文模型
			
 
				 - [ ] 集成 Transformers NER 模型
			
 
				-- [ ] 实现 API 模式（DeepSeek/Qwen）
			
 
				+- [ ] 实现远程 API 模式（百炼）
			
 
				 - [ ] 优化关系抽取准确率
			
--- a/python-services/ner-service/app/config.py
+++ b/python-services/ner-service/app/config.py
@@ -17,19 +17,37 @@ class Settings(BaseSettings):
 
				     port: int = 8001
			
 
				     
			
 
				     # NER 模型配置
			
 
				-    ner_model: str = "rule"  # rule / spacy / transformers / api
			
 
				-    ner_model_name: Optional[str] = None  # 具体模型名称
			
 
				+    # rule: 基于规则的简单 NER（开发测试用）
			
 
				+    # ollama: 使用本地 Ollama LLM（推荐生产环境）
			
 
				+    # api: 使用远程 API（如百炼）
			
 
				+    ner_model: str = "rule"
			
 
				     use_gpu: bool = False
			
 
				     max_text_length: int = 50000
			
 
				     
			
 
				-    # API 配置（用于 API 模式的后备方案）
			
 
				+    # Ollama 配置（用于 ollama 模式）
			
 
				+    ollama_url: str = "http://localhost:11434"
			
 
				+    ollama_model: str = "qwen2.5:7b"  # 推荐中文 NER 使用 qwen2.5
			
 
				+    ollama_timeout: int = 120  # 秒
			
 
				+    
			
 
				+    # 文本分块配置（用于长文本处理）
			
 
				+    chunk_size: int = 2000  # 每个分块的最大字符数
			
 
				+    chunk_overlap: int = 200  # 分块重叠字符数
			
 
				+    
			
 
				+    # API 配置（用于 api 模式）
			
 
				     api_base_url: Optional[str] = None
			
 
				     api_key: Optional[str] = None
			
 
				     api_model: str = "qwen-plus"
			
 
				     
			
 
				     # 实体类型配置
			
 
				     entity_types: List[str] = [
			
 
				-        "PERSON", "ORG", "LOC", "DATE", "NUMBER", "DEVICE", "TERM", "PROJECT", "COMPANY"
			
 
				+        "PERSON",   # 人名
			
 
				+        "ORG",      # 机构/组织
			
 
				+        "LOC",      # 地点
			
 
				+        "DATE",     # 日期
			
 
				+        "NUMBER",   # 数值
			
 
				+        "DEVICE",   # 设备
			
 
				+        "PROJECT",  # 项目
			
 
				+        "METHOD",   # 方法/标准
			
 
				     ]
			
 
				     
			
 
				     # 日志配置
			
--- a/python-services/ner-service/app/services/ner_service.py
+++ b/python-services/ner-service/app/services/ner_service.py
@@ -43,6 +43,8 @@ class NerService:
 
				         
			
 
				         if self.model_type == "rule":
			
 
				             return await self._extract_by_rules(text, entity_types)
			
 
				+        elif self.model_type == "ollama":
			
 
				+            return await self._extract_by_ollama(text, entity_types)
			
 
				         elif self.model_type == "spacy":
			
 
				             return await self._extract_by_spacy(text, entity_types)
			
 
				         elif self.model_type == "transformers":
			
@@ -186,6 +188,22 @@ class NerService:
 
				         logger.info(f"规则 NER 提取完成: entity_count={len(entities)}")
			
 
				         return entities
			
 
				     
			
 
				+    async def _extract_by_ollama(
			
 
				+        self, 
			
 
				+        text: str, 
			
 
				+        entity_types: Optional[List[str]] = None
			
 
				+    ) -> List[EntityInfo]:
			
 
				+        """
			
 
				+        使用本地 Ollama LLM 进行 NER 提取
			
 
				+        支持长文本自动分块
			
 
				+        """
			
 
				+        try:
			
 
				+            from .ollama_service import ollama_service
			
 
				+            return await ollama_service.extract_entities(text, entity_types)
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"Ollama NER 失败: {e}，回退到规则模式")
			
 
				+            return await self._extract_by_rules(text, entity_types)
			
 
				+    
			
 
				     async def _extract_by_spacy(
			
 
				         self, 
			
 
				         text: str, 
			
--- a/python-services/ner-service/app/services/ollama_service.py
+++ b/python-services/ner-service/app/services/ollama_service.py
@@ -0,0 +1,254 @@
 
				+"""
			
 
				+Ollama LLM 服务
			
 
				+用于调用本地 Ollama 模型进行 NER 提取
			
 
				+"""
			
 
				+import json
			
 
				+import re
			
 
				+import uuid
			
 
				+import httpx
			
 
				+from typing import List, Optional, Dict, Any
			
 
				+from loguru import logger
			
 
				+
			
 
				+from ..config import settings
			
 
				+from ..models import EntityInfo, PositionInfo
			
 
				+
			
 
				+
			
 
				+class OllamaService:
			
 
				+    """Ollama LLM 服务"""
			
 
				+    
			
 
				+    def __init__(self):
			
 
				+        self.base_url = settings.ollama_url
			
 
				+        self.model = settings.ollama_model
			
 
				+        self.timeout = settings.ollama_timeout
			
 
				+        self.chunk_size = settings.chunk_size
			
 
				+        self.chunk_overlap = settings.chunk_overlap
			
 
				+        logger.info(f"初始化 Ollama 服务: url={self.base_url}, model={self.model}")
			
 
				+    
			
 
				+    def _split_text(self, text: str) -> List[Dict[str, Any]]:
			
 
				+        """
			
 
				+        将长文本分割成多个块
			
 
				+        
			
 
				+        Args:
			
 
				+            text: 原始文本
			
 
				+            
			
 
				+        Returns:
			
 
				+            分块列表，每个块包含 text, start_pos, end_pos
			
 
				+        """
			
 
				+        if len(text) <= self.chunk_size:
			
 
				+            return [{"text": text, "start_pos": 0, "end_pos": len(text)}]
			
 
				+        
			
 
				+        chunks = []
			
 
				+        start = 0
			
 
				+        
			
 
				+        while start < len(text):
			
 
				+            end = min(start + self.chunk_size, len(text))
			
 
				+            
			
 
				+            # 尝试在句号、换行处分割，避免截断句子
			
 
				+            if end < len(text):
			
 
				+                # 向前查找最近的分隔符
			
 
				+                for sep in ['\n\n', '\n', '。', '；', '！', '？', '.']:
			
 
				+                    sep_pos = text.rfind(sep, start + self.chunk_size // 2, end)
			
 
				+                    if sep_pos > start:
			
 
				+                        end = sep_pos + len(sep)
			
 
				+                        break
			
 
				+            
			
 
				+            chunk_text = text[start:end]
			
 
				+            chunks.append({
			
 
				+                "text": chunk_text,
			
 
				+                "start_pos": start,
			
 
				+                "end_pos": end
			
 
				+            })
			
 
				+            
			
 
				+            # 下一个块的起始位置（考虑重叠）
			
 
				+            start = end - self.chunk_overlap if end < len(text) else end
			
 
				+        
			
 
				+        logger.info(f"文本分割完成: 总长度={len(text)}, 分块数={len(chunks)}")
			
 
				+        return chunks
			
 
				+    
			
 
				+    def _build_ner_prompt(self, text: str, entity_types: Optional[List[str]] = None) -> str:
			
 
				+        """
			
 
				+        构建 NER 提取的 Prompt
			
 
				+        """
			
 
				+        types = entity_types or settings.entity_types
			
 
				+        types_desc = ", ".join(types)
			
 
				+        
			
 
				+        prompt = f"""你是一个专业的命名实体识别(NER)系统。请从以下文本中提取实体。
			
 
				+
			
 
				+## 任务要求
			
 
				+1. 识别以下类型的实体: {types_desc}
			
 
				+2. 每个实体需要包含: 名称(name)、类型(type)、在文本中的起始位置(charStart)和结束位置(charEnd)
			
 
				+3. 只提取明确的、有意义的实体，避免提取过于泛化的词汇
			
 
				+4. 严格按照 JSON 格式输出
			
 
				+
			
 
				+## 实体类型说明
			
 
				+- PERSON: 人名（如：张三、李经理）
			
 
				+- ORG: 机构/组织/公司（如：成都检测公司、环保局）
			
 
				+- LOC: 地点/地址（如：成都市、高新区）
			
 
				+- DATE: 日期时间（如：2024年5月15日、2024-05-15）
			
 
				+- NUMBER: 带单位的数值（如：50分贝、100万元）
			
 
				+- DEVICE: 设备仪器（如：噪音检测仪、分析仪器）
			
 
				+- PROJECT: 项目/工程（如：环境监测项目、XX工程）
			
 
				+- METHOD: 方法/标准（如：GB/T 12345、检测方法）
			
 
				+
			
 
				+## 输出格式
			
 
				+请严格按以下 JSON 格式输出，不要包含其他内容：
			
 
				+```json
			
 
				+{{
			
 
				+  "entities": [
			
 
				+    {{"name": "实体名称", "type": "实体类型", "charStart": 起始位置, "charEnd": 结束位置}}
			
 
				+  ]
			
 
				+}}
			
 
				+```
			
 
				+
			
 
				+## 待处理文本
			
 
				+{text}
			
 
				+
			
 
				+## 提取结果
			
 
				+"""
			
 
				+        return prompt
			
 
				+    
			
 
				+    async def _call_ollama(self, prompt: str) -> Optional[str]:
			
 
				+        """
			
 
				+        调用 Ollama API
			
 
				+        """
			
 
				+        url = f"{self.base_url}/api/generate"
			
 
				+        payload = {
			
 
				+            "model": self.model,
			
 
				+            "prompt": prompt,
			
 
				+            "stream": False,
			
 
				+            "options": {
			
 
				+                "temperature": 0.1,  # 低温度，更确定性的输出
			
 
				+                "num_predict": 4096,  # 最大输出 token
			
 
				+            }
			
 
				+        }
			
 
				+        
			
 
				+        try:
			
 
				+            async with httpx.AsyncClient(timeout=self.timeout) as client:
			
 
				+                response = await client.post(url, json=payload)
			
 
				+                response.raise_for_status()
			
 
				+                result = response.json()
			
 
				+                return result.get("response", "")
			
 
				+        except httpx.TimeoutException:
			
 
				+            logger.error(f"Ollama 请求超时: timeout={self.timeout}s")
			
 
				+            return None
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"Ollama 请求失败: {e}")
			
 
				+            return None
			
 
				+    
			
 
				+    def _parse_llm_response(self, response: str, chunk_start_pos: int = 0) -> List[EntityInfo]:
			
 
				+        """
			
 
				+        解析 LLM 返回的 JSON 结果
			
 
				+        
			
 
				+        Args:
			
 
				+            response: LLM 返回的文本
			
 
				+            chunk_start_pos: 当前分块在原文中的起始位置（用于位置校正）
			
 
				+        """
			
 
				+        entities = []
			
 
				+        
			
 
				+        try:
			
 
				+            # 尝试提取 JSON 部分
			
 
				+            json_match = re.search(r'\{[\s\S]*\}', response)
			
 
				+            if not json_match:
			
 
				+                logger.warning("LLM 响应中未找到 JSON")
			
 
				+                return entities
			
 
				+            
			
 
				+            json_str = json_match.group()
			
 
				+            data = json.loads(json_str)
			
 
				+            
			
 
				+            entity_list = data.get("entities", [])
			
 
				+            
			
 
				+            for item in entity_list:
			
 
				+                name = item.get("name", "").strip()
			
 
				+                entity_type = item.get("type", "").upper()
			
 
				+                char_start = item.get("charStart", 0)
			
 
				+                char_end = item.get("charEnd", 0)
			
 
				+                
			
 
				+                if not name or len(name) < 2:
			
 
				+                    continue
			
 
				+                
			
 
				+                # 校正位置（加上分块的起始位置）
			
 
				+                adjusted_start = char_start + chunk_start_pos
			
 
				+                adjusted_end = char_end + chunk_start_pos
			
 
				+                
			
 
				+                entity = EntityInfo(
			
 
				+                    name=name,
			
 
				+                    type=entity_type,
			
 
				+                    value=name,
			
 
				+                    position=PositionInfo(
			
 
				+                        char_start=adjusted_start,
			
 
				+                        char_end=adjusted_end,
			
 
				+                        line=1  # LLM 模式不计算行号
			
 
				+                    ),
			
 
				+                    confidence=0.9,  # LLM 模式默认较高置信度
			
 
				+                    temp_id=str(uuid.uuid4())[:8]
			
 
				+                )
			
 
				+                entities.append(entity)
			
 
				+                
			
 
				+        except json.JSONDecodeError as e:
			
 
				+            logger.warning(f"JSON 解析失败: {e}, response={response[:200]}...")
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"解析 LLM 响应失败: {e}")
			
 
				+        
			
 
				+        return entities
			
 
				+    
			
 
				+    async def extract_entities(
			
 
				+        self, 
			
 
				+        text: str, 
			
 
				+        entity_types: Optional[List[str]] = None
			
 
				+    ) -> List[EntityInfo]:
			
 
				+        """
			
 
				+        使用 Ollama LLM 提取实体
			
 
				+        
			
 
				+        支持长文本自动分块处理
			
 
				+        """
			
 
				+        if not text or not text.strip():
			
 
				+            return []
			
 
				+        
			
 
				+        # 分割长文本
			
 
				+        chunks = self._split_text(text)
			
 
				+        
			
 
				+        all_entities = []
			
 
				+        seen_entities = set()  # 用于去重
			
 
				+        
			
 
				+        for i, chunk in enumerate(chunks):
			
 
				+            logger.info(f"处理分块 {i+1}/{len(chunks)}: 长度={len(chunk['text'])}")
			
 
				+            
			
 
				+            # 构建 prompt
			
 
				+            prompt = self._build_ner_prompt(chunk["text"], entity_types)
			
 
				+            
			
 
				+            # 调用 Ollama
			
 
				+            response = await self._call_ollama(prompt)
			
 
				+            
			
 
				+            if not response:
			
 
				+                logger.warning(f"分块 {i+1} Ollama 返回为空")
			
 
				+                continue
			
 
				+            
			
 
				+            # 解析结果
			
 
				+            entities = self._parse_llm_response(response, chunk["start_pos"])
			
 
				+            
			
 
				+            # 去重
			
 
				+            for entity in entities:
			
 
				+                entity_key = f"{entity.type}:{entity.name}"
			
 
				+                if entity_key not in seen_entities:
			
 
				+                    seen_entities.add(entity_key)
			
 
				+                    all_entities.append(entity)
			
 
				+            
			
 
				+            logger.info(f"分块 {i+1} 提取实体: {len(entities)} 个")
			
 
				+        
			
 
				+        logger.info(f"Ollama NER 提取完成: 总实体数={len(all_entities)}")
			
 
				+        return all_entities
			
 
				+    
			
 
				+    async def check_health(self) -> bool:
			
 
				+        """
			
 
				+        检查 Ollama 服务是否可用
			
 
				+        """
			
 
				+        try:
			
 
				+            async with httpx.AsyncClient(timeout=5) as client:
			
 
				+                response = await client.get(f"{self.base_url}/api/tags")
			
 
				+                return response.status_code == 200
			
 
				+        except Exception:
			
 
				+            return False
			
 
				+
			
 
				+
			
 
				+# 创建单例
			
 
				+ollama_service = OllamaService()