进度报告.md 7.8 KB

📊 灵越智报 2.0 - 当前进度总结

整体进度:55% | 报告日期:2026-01-19


✅ 已完成(55%)

基础设施

  • Spring Boot 3.1.5 单体应用架构(lingyue-starter)
  • 数据库(PostgreSQL + pgvector)、缓存(Redis)、消息队列(RabbitMQ)配置完成
  • 6大服务模块框架搭建完成

核心模块现状

  • 📁 文档管理、解析、认证 → 框架完成
  • 🤖 AI服务、图谱服务 → 数据层完成,RAG 功能已实现
  • 🔍 RAG 向量化存储 → ✅ 已完成
  • 🏷️ NER 实体识别服务 → ✅ 已完成

新增功能(2026-01-19)

  • NER 服务完整实现
    • Python FastAPI NER 服务(规则模式,支持扩展 spaCy/Transformers/API)
    • Java NER 客户端(PythonNerClient)
    • NER DTO 类(NerRequest, NerResponse, EntityInfo, RelationInfo 等)
    • NER API 接口(/api/ner/extract, /api/ner/document/{id})
  • 关系抽取服务
    • 基于规则的关系抽取(位置邻近性、语义模式匹配)
    • 关系抽取 API(/api/ner/relations)
  • 图数据库服务扩展
    • GraphNodeService(节点/关系 CRUD、批量操作)
    • 图数据库 API(/api/graph/nodes, /api/graph/relations)
    • 文档节点统计接口
  • 解析流程集成
    • 文档解析完成事件(DocumentParsedEvent)
    • NER 自动触发监听器
    • 解析 → RAG → NER → 图数据库完整链路
    • NER 服务配置项(ner.python-service.url 等)

新增功能(2026-01-17)

  • 单体应用架构重构 - 统一到 lingyue-starter 模块
  • 配置文件统一 - 全部使用 .properties 格式,删除 .yml 文件
  • MyBatisPlusConfig 统一 - 移除各模块独立配置,集中管理
  • 配置指南文档 - CONFIG_GUIDE.md(环境变量、配置优先级说明)
  • 接口测试完成 - 验证核心接口可用性
    • /actuator/health(健康检查)
    • /auth/register(用户注册)
    • /auth/login(用户登录)
    • /api/v1/parse/upload(文档上传)
    • /api/rag/stats/{documentId}(分块统计)
    • /api/rag/chunks/{documentId}(分块列表)
    • /api/rag/query(RAG 问答)

已完成功能(2026-01-16)

  • ✅ pgvector 向量数据库集成(text_chunks, vector_embeddings 表)
  • ✅ 文本分块服务(智能句子边界切分,500字符/块,50字符重叠)
  • ✅ Ollama Embedding 向量化服务(nomic-embed-text 模型)
  • ✅ pgvector 向量相似度检索(HNSW 索引,余弦距离)
  • ✅ DeepSeek API 客户端(Chat Completion)
  • ✅ RAG 核心服务(索引、检索、问答)
  • ✅ RAG API Controller(/api/rag/*)
  • ✅ 自动索引集成(解析完成后自动建立向量索引)

⚠️ 关键缺失(对照技术预研表)

预研项 进度 表格要求 已完成 ✅ 待实现 ❌
1️⃣ 规则"智能体"设计 35% 报告生成逻辑规则多样(字符逻辑、语义理解、实体关系多层计算) Graph Service 架构(9个Repository)
规则、模板数据模型
数据访问层
RAG 问答服务
规则DSL定义与解析
规则执行引擎
多层计算算法
2️⃣ 产品定位与功能逻辑 40% 产品交互界面、智能体集群、规则逻辑校验 6大后端服务框架
Flutter 项目结构
路由、主题、基础组件
所有前端页面UI
智能体集群架构
规则校验功能
前后端API对接
3️⃣ 规则智能体模拟 40% 单规则逻辑树构建、规则测试、API记忆化(知识图谱) TextStorage(文本存储)
GraphNode、GraphRelation
ParseTask(任务管理)
文本分块、向量存储
向量相似度检索
规则逻辑树算法
单规则校验引擎
知识图谱构建算法
图谱查询与推理
4️⃣ AI模态体型/OCR 60% AI模态体型、OCR、文本分析代码,NSDK集成 PaddleOCR Client 接口
PDF/Word/Excel 文本提取
AI Service 框架
Element、Annotation 实体
DeepSeek API 客户端
Ollama Embedding 服务
AI模态体模型接入
NSDK集成
NLP文本分析算法
OCR后处理优化
5️⃣ 前端交互设计 15% AI产品"交互应简单"体验、核心交互功能规划 Flutter 项目结构
路由、主题配置
基础组件、业务组件
7个页面骨架
所有7个核心页面UI
页面交互逻辑
与后端API对接
WebSocket实时通信

📁 项目结构

backend/
├── common/                 # 公共模块(AjaxResult、异常处理、工具类)
├── auth-service/           # 认证服务(JWT、Session、User)
├── document-service/       # 文档管理服务
├── parse-service/          # 解析服务(OCR、PDF/Word/Excel提取、任务中心)
├── ai-service/             # AI服务(DeepSeek客户端)
├── graph-service/          # 图谱服务(RAG、向量检索、知识图谱)
├── notification-service/   # 通知服务(WebSocket)
├── gateway-service/        # 网关服务(JWT过滤器、CORS)
├── lingyue-starter/        # 单体应用启动器(统一配置)
└── sql/                    # 数据库初始化脚本

frontend_flutter/
├── lib/
│   ├── models/             # 数据模型(6个)
│   ├── pages/              # 页面(7个)
│   ├── providers/          # 状态管理(4个)
│   ├── widgets/            # 组件(8个)
│   └── theme/              # 主题配置
└── web/                    # Web 构建产物

🎯 下一阶段实现说明(对照《灵越智报2.0程序设计详解》)

计划周期:2026-01-19 ~ 2026-01-23

目标:跑通“解析文本 → 向量化 → NER → 关系构建 → 图数据库”的完整链路(设计文档 2.2.2 / 2.3 / 10.2)

每日任务计划:

  • 01-19(周一)✅ 已完成:NER 服务接口定义与数据结构;Python NER 服务联调准备(输入/输出格式)
    • ✅ NER DTO 类(NerRequest, NerResponse, EntityInfo, RelationInfo 等)
    • ✅ Python FastAPI NER 服务骨架
    • ✅ 实体提取和关系抽取实现(规则模式)
    • ✅ Java PythonNerClient HTTP 客户端
    • ✅ NerServiceImpl 业务逻辑
    • ✅ GraphNodeService 扩展
    • ✅ TextStorageService 集成(自动触发 NER)
  • 01-20(周二):联调测试与优化;完善错误处理
  • 01-21(周三):关系抽取优化;增加更多实体类型支持
  • 01-22(周四):图节点/关系查询接口优化;性能测试
  • 01-23(周五):端到端验证;问题收敛与文档更新
  1. NER 实体提取(优先级最高)

    • 设计要求:两轮处理(实体→关系),离线方案优先(设计文档 2.3.1 / 10.2)
    • 实施路径:
      • ai-service 增加 NER 接口(HTTP 调用 Python NER 服务)
      • 输出节点列表 + 关系列表
      • 写入图数据库(graph_nodes/graph_relations
  2. 关系构建与图结构入库

    • 设计要求:常识关系/语义关系/计算关系(设计文档 2.3.2)
    • 实施路径:
      • 关系抽取接口(基于 NER 输出)
      • graph-service 提供图节点/关系 CRUD 与按文档查询
  3. 数据源管理 & 模板基础

    • 设计要求:数据源是图节点集合,可编辑替换(设计文档 2.4 / 2.6)
    • 实施路径:
      • data_sources 表结构与 CRUD
      • 模板占位符绑定数据源,基础渲染输出
  4. AI 助手路由与问答链路

    • 设计要求:意图识别 → 路由 → RAG/图数据库(设计文档 2.7 / 10.1)
    • 实施路径:
      • 路由规则与问答入口
      • DeepSeek/百炼配置稳定化
  5. 前后端联调

    • 上传、解析、RAG、任务中心 UI 对接
    • WebSocket 实时进度推送