Procházet zdrojové kódy

fix: 优化 CERT 实体类型识别,避免泛化问题

问题:之前 CERT 识别出了一些片段性实体,如:
- "电力"、"水利水电"(应该是完整资质的一部分)

优化:
1. CERT 类型明确要求提取**完整的**资质证书名称
2. 排除单独的行业名称和资质简称片段
3. 新增规则"不要拆分并列实体"
4. 强调实体必须完整,列举具体示例

示例:
- 正确:"电力、水利水电、市政公用工程施工总承包一级"
- 错误:"电力"、"水利水电"(单独提取)
何文松 před 1 měsícem
rodič
revize
543a245677

+ 16 - 7
python-services/ner-service/app/services/deepseek_service.py

@@ -115,9 +115,12 @@ class DeepSeekService:
    - 特征:通常包含字母、数字、连字符、年份、括号等组合
 
 10. **CERT** - 证书/资质/等级
-    - 包括:资质证书、等级认证、荣誉称号、专业资质
-    - 例如:"电力安全生产标准化一级企业证书"、"工程设计综合甲级"、"注册安全工程师证"、"四综甲"
-    - 不包括:职务职称(归类为 TITLE)
+    - 包括:**完整的**资质证书名称、等级认证、荣誉称号、专业资质
+    - 例如:"电力安全生产标准化一级企业证书"、"工程设计综合甲级资质"、"注册安全工程师证"、"电力、水利水电、市政公用工程施工总承包一级"
+    - **不包括**:
+      - 职务职称(归类为 TITLE)
+      - 单独的行业名称(如单独的"电力"、"水利水电"不是资质,需要完整如"电力工程施工总承包一级")
+      - 资质的简称片段(如"甲级"本身不提取,需要完整如"工程设计综合甲级")
 
 11. **TITLE** - 职务/职称
     - 包括:行政职务、专业职称、岗位名称
@@ -135,13 +138,19 @@ class DeepSeekService:
    - 章节编号(如"1"、"1.1"、"第一章")
    - 表格序号
    - 单独的数字(如"16"、"17")
-   - 文件编号和标准编号(归类为无意义数据,不要提取)
 
-2. **实体边界要准确**,提取完整的名称而非片段
+2. **实体必须完整**,提取完整的名称而非片段:
+   - 资质要完整:提取"工程设计综合甲级"而非"甲级"
+   - 证书要完整:提取"注册安全工程师证"而非"安全工程师"
+   - 机构要完整:提取"安全质量环保部"而非"环保部"
 
-3. **去除重复实体**,相同的实体只返回一次
+3. **不要拆分并列实体**:
+   - 如"电力、水利水电、市政公用工程施工总承包一级"应作为一个完整的 CERT
+   - 不要拆成"电力"、"水利水电"等单独的实体
 
-4. **charStart和charEnd必须准确**,对应实体在原文中的字符位置(从0开始)
+4. **去除重复实体**,相同的实体只返回一次
+
+5. **charStart和charEnd必须准确**,对应实体在原文中的字符位置(从0开始)
 
 ## 输出格式