1 month ago · 6b553689a2
--- a/backend/document-service/src/main/java/com/lingyue/document/controller/DocumentController.java
+++ b/backend/document-service/src/main/java/com/lingyue/document/controller/DocumentController.java
@@ -3,7 +3,9 @@ package com.lingyue.document.controller;
 
				 import com.baomidou.mybatisplus.core.metadata.IPage;
			
 
				 import com.baomidou.mybatisplus.extension.plugins.pagination.Page;
			
 
				 import com.lingyue.document.entity.Document;
			
 
				+import com.lingyue.document.entity.DocumentElement;
			
 
				 import com.lingyue.document.service.DocumentService;
			
 
				+import com.lingyue.document.service.DocumentElementService;
			
 
				 import com.lingyue.common.domain.AjaxResult;
			
 
				 import io.swagger.v3.oas.annotations.Operation;
			
 
				 import io.swagger.v3.oas.annotations.Parameter;
			
@@ -13,6 +15,9 @@ import lombok.RequiredArgsConstructor;
 
				 import lombok.extern.slf4j.Slf4j;
			
 
				 import org.springframework.web.bind.annotation.*;
			
 
				 
			
 
				+import java.util.List;
			
 
				+import java.util.Map;
			
 
				+
			
 
				 /**
			
 
				  * 文档控制器
			
 
				  * 提供文档的 CRUD 操作
			
@@ -28,6 +33,7 @@ import org.springframework.web.bind.annotation.*;
 
				 public class DocumentController {
			
 
				     
			
 
				     private final DocumentService documentService;
			
 
				+    private final DocumentElementService documentElementService;
			
 
				     
			
 
				     /**
			
 
				      * 获取文档列表（分页）
			
@@ -142,6 +148,55 @@ public class DocumentController {
 
				         }
			
 
				     }
			
 
				     
			
 
				+    /**
			
 
				+     * 获取文档的结构化内容
			
 
				+     * 包含段落、图片、表格，按原始顺序排列
			
 
				+     */
			
 
				+    @GetMapping("/{documentId}/elements")
			
 
				+    @Operation(summary = "获取文档结构化内容", description = "获取文档的段落、图片、表格等结构化元素，保持原始排版顺序")
			
 
				+    public AjaxResult<?> getDocumentElements(
			
 
				+            @Parameter(description = "文档ID", required = true)
			
 
				+            @PathVariable String documentId) {
			
 
				+        
			
 
				+        List<DocumentElement> elements = documentElementService.getElementsByDocumentId(documentId);
			
 
				+        if (elements.isEmpty()) {
			
 
				+            return AjaxResult.error("文档尚未进行结构化解析或无内容");
			
 
				+        }
			
 
				+        
			
 
				+        DocumentElementsResponse response = new DocumentElementsResponse();
			
 
				+        response.setDocumentId(documentId);
			
 
				+        response.setElements(elements);
			
 
				+        response.setStats(documentElementService.getElementStats(documentId));
			
 
				+        
			
 
				+        return AjaxResult.success(response);
			
 
				+    }
			
 
				+    
			
 
				+    /**
			
 
				+     * 获取文档中的所有图片
			
 
				+     */
			
 
				+    @GetMapping("/{documentId}/images")
			
 
				+    @Operation(summary = "获取文档图片列表", description = "获取文档中所有图片的信息和URL")
			
 
				+    public AjaxResult<?> getDocumentImages(
			
 
				+            @Parameter(description = "文档ID", required = true)
			
 
				+            @PathVariable String documentId) {
			
 
				+        
			
 
				+        List<DocumentElement> images = documentElementService.getImagesByDocumentId(documentId);
			
 
				+        return AjaxResult.success(images);
			
 
				+    }
			
 
				+    
			
 
				+    /**
			
 
				+     * 获取文档中的所有表格
			
 
				+     */
			
 
				+    @GetMapping("/{documentId}/tables")
			
 
				+    @Operation(summary = "获取文档表格列表", description = "获取文档中所有表格的数据")
			
 
				+    public AjaxResult<?> getDocumentTables(
			
 
				+            @Parameter(description = "文档ID", required = true)
			
 
				+            @PathVariable String documentId) {
			
 
				+        
			
 
				+        List<DocumentElement> tables = documentElementService.getTablesByDocumentId(documentId);
			
 
				+        return AjaxResult.success(tables);
			
 
				+    }
			
 
				+    
			
 
				     // ==================== 响应 DTO ====================
			
 
				     
			
 
				     @Data
			
@@ -160,4 +215,11 @@ public class DocumentController {
 
				         private java.util.Date startedAt;
			
 
				         private java.util.Date completedAt;
			
 
				     }
			
 
				+    
			
 
				+    @Data
			
 
				+    public static class DocumentElementsResponse {
			
 
				+        private String documentId;
			
 
				+        private List<DocumentElement> elements;
			
 
				+        private Map<String, Object> stats;
			
 
				+    }
			
 
				 }
			
--- a/backend/document-service/src/main/java/com/lingyue/document/entity/DocumentElement.java
+++ b/backend/document-service/src/main/java/com/lingyue/document/entity/DocumentElement.java
@@ -0,0 +1,112 @@
 
				+package com.lingyue.document.entity;
			
 
				+
			
 
				+import com.baomidou.mybatisplus.annotation.TableField;
			
 
				+import com.baomidou.mybatisplus.annotation.TableName;
			
 
				+import com.baomidou.mybatisplus.extension.handlers.JacksonTypeHandler;
			
 
				+import com.lingyue.common.domain.entity.SimpleModel;
			
 
				+import lombok.Data;
			
 
				+import lombok.EqualsAndHashCode;
			
 
				+
			
 
				+import java.util.List;
			
 
				+import java.util.Map;
			
 
				+
			
 
				+/**
			
 
				+ * 文档结构化元素实体
			
 
				+ * 存储从 Word/PDF 中提取的段落、图片、表格等
			
 
				+ * 
			
 
				+ * @author lingyue
			
 
				+ * @since 2026-01-21
			
 
				+ */
			
 
				+@Data
			
 
				+@EqualsAndHashCode(callSuper = true)
			
 
				+@TableName(value = "document_elements", autoResultMap = true)
			
 
				+public class DocumentElement extends SimpleModel {
			
 
				+    
			
 
				+    /**
			
 
				+     * 文档 ID
			
 
				+     */
			
 
				+    private String documentId;
			
 
				+    
			
 
				+    /**
			
 
				+     * 元素在文档中的顺序索引
			
 
				+     */
			
 
				+    private Integer elementIndex;
			
 
				+    
			
 
				+    /**
			
 
				+     * 元素类型：paragraph/heading/heading1-9/list_item/image/table/title/toc
			
 
				+     */
			
 
				+    private String elementType;
			
 
				+    
			
 
				+    /**
			
 
				+     * 文本内容（文本类型元素）
			
 
				+     */
			
 
				+    private String content;
			
 
				+    
			
 
				+    /**
			
 
				+     * 样式信息（JSON）
			
 
				+     * {alignment, fontSize, fontFamily, bold, italic, underline, color, indentLeft, indentFirstLine, lineSpacing}
			
 
				+     */
			
 
				+    @TableField(typeHandler = JacksonTypeHandler.class)
			
 
				+    private Map<String, Object> style;
			
 
				+    
			
 
				+    // ========== 图片相关 ==========
			
 
				+    
			
 
				+    /**
			
 
				+     * 图片访问 URL
			
 
				+     */
			
 
				+    private String imageUrl;
			
 
				+    
			
 
				+    /**
			
 
				+     * 图片存储路径
			
 
				+     */
			
 
				+    private String imagePath;
			
 
				+    
			
 
				+    /**
			
 
				+     * 图片描述/替代文本
			
 
				+     */
			
 
				+    private String imageAlt;
			
 
				+    
			
 
				+    /**
			
 
				+     * 图片宽度（像素）
			
 
				+     */
			
 
				+    private Integer imageWidth;
			
 
				+    
			
 
				+    /**
			
 
				+     * 图片高度（像素）
			
 
				+     */
			
 
				+    private Integer imageHeight;
			
 
				+    
			
 
				+    /**
			
 
				+     * 图片格式：png/jpg/gif/etc
			
 
				+     */
			
 
				+    private String imageFormat;
			
 
				+    
			
 
				+    // ========== 表格相关 ==========
			
 
				+    
			
 
				+    /**
			
 
				+     * 表格索引
			
 
				+     */
			
 
				+    private Integer tableIndex;
			
 
				+    
			
 
				+    /**
			
 
				+     * 表格数据（JSON）
			
 
				+     * [[{row, col, text, colSpan, rowSpan, merged}, ...], ...]
			
 
				+     */
			
 
				+    @TableField(typeHandler = JacksonTypeHandler.class)
			
 
				+    private List<List<Map<String, Object>>> tableData;
			
 
				+    
			
 
				+    /**
			
 
				+     * 表格行数
			
 
				+     */
			
 
				+    private Integer tableRowCount;
			
 
				+    
			
 
				+    /**
			
 
				+     * 表格列数
			
 
				+     */
			
 
				+    private Integer tableColCount;
			
 
				+    
			
 
				+    /**
			
 
				+     * 表格文本（用于搜索）
			
 
				+     */
			
 
				+    private String tableText;
			
 
				+}
			
--- a/backend/document-service/src/main/java/com/lingyue/document/repository/DocumentElementRepository.java
+++ b/backend/document-service/src/main/java/com/lingyue/document/repository/DocumentElementRepository.java
@@ -0,0 +1,60 @@
 
				+package com.lingyue.document.repository;
			
 
				+
			
 
				+import com.baomidou.mybatisplus.core.mapper.BaseMapper;
			
 
				+import com.lingyue.document.entity.DocumentElement;
			
 
				+import org.apache.ibatis.annotations.*;
			
 
				+
			
 
				+import java.util.List;
			
 
				+
			
 
				+/**
			
 
				+ * 文档元素 Repository
			
 
				+ * 
			
 
				+ * @author lingyue
			
 
				+ * @since 2026-01-21
			
 
				+ */
			
 
				+@Mapper
			
 
				+public interface DocumentElementRepository extends BaseMapper<DocumentElement> {
			
 
				+    
			
 
				+    /**
			
 
				+     * 根据文档ID查询所有元素（按顺序）
			
 
				+     */
			
 
				+    @Select("SELECT * FROM document_elements WHERE document_id = #{documentId} ORDER BY element_index")
			
 
				+    List<DocumentElement> findByDocumentId(@Param("documentId") String documentId);
			
 
				+    
			
 
				+    /**
			
 
				+     * 根据文档ID和类型查询元素
			
 
				+     */
			
 
				+    @Select("SELECT * FROM document_elements WHERE document_id = #{documentId} AND element_type = #{elementType} ORDER BY element_index")
			
 
				+    List<DocumentElement> findByDocumentIdAndType(@Param("documentId") String documentId, 
			
 
				+                                                   @Param("elementType") String elementType);
			
 
				+    
			
 
				+    /**
			
 
				+     * 查询文档中的所有图片
			
 
				+     */
			
 
				+    @Select("SELECT * FROM document_elements WHERE document_id = #{documentId} AND element_type = 'image' ORDER BY element_index")
			
 
				+    List<DocumentElement> findImagesByDocumentId(@Param("documentId") String documentId);
			
 
				+    
			
 
				+    /**
			
 
				+     * 查询文档中的所有表格
			
 
				+     */
			
 
				+    @Select("SELECT * FROM document_elements WHERE document_id = #{documentId} AND element_type = 'table' ORDER BY element_index")
			
 
				+    List<DocumentElement> findTablesByDocumentId(@Param("documentId") String documentId);
			
 
				+    
			
 
				+    /**
			
 
				+     * 删除文档的所有元素
			
 
				+     */
			
 
				+    @Delete("DELETE FROM document_elements WHERE document_id = #{documentId}")
			
 
				+    int deleteByDocumentId(@Param("documentId") String documentId);
			
 
				+    
			
 
				+    /**
			
 
				+     * 统计文档元素数量
			
 
				+     */
			
 
				+    @Select("SELECT COUNT(*) FROM document_elements WHERE document_id = #{documentId}")
			
 
				+    int countByDocumentId(@Param("documentId") String documentId);
			
 
				+    
			
 
				+    /**
			
 
				+     * 按类型统计
			
 
				+     */
			
 
				+    @Select("SELECT element_type, COUNT(*) as count FROM document_elements WHERE document_id = #{documentId} GROUP BY element_type")
			
 
				+    List<java.util.Map<String, Object>> countByDocumentIdGroupByType(@Param("documentId") String documentId);
			
 
				+}
			
--- a/backend/document-service/src/main/java/com/lingyue/document/service/DocumentElementService.java
+++ b/backend/document-service/src/main/java/com/lingyue/document/service/DocumentElementService.java
@@ -0,0 +1,140 @@
 
				+package com.lingyue.document.service;
			
 
				+
			
 
				+import com.lingyue.document.entity.DocumentElement;
			
 
				+import com.lingyue.document.repository.DocumentElementRepository;
			
 
				+import lombok.RequiredArgsConstructor;
			
 
				+import lombok.extern.slf4j.Slf4j;
			
 
				+import org.springframework.stereotype.Service;
			
 
				+import org.springframework.transaction.annotation.Transactional;
			
 
				+
			
 
				+import java.util.ArrayList;
			
 
				+import java.util.HashMap;
			
 
				+import java.util.List;
			
 
				+import java.util.Map;
			
 
				+
			
 
				+/**
			
 
				+ * 文档元素服务
			
 
				+ * 管理文档的结构化内容（段落、图片、表格）
			
 
				+ * 
			
 
				+ * @author lingyue
			
 
				+ * @since 2026-01-21
			
 
				+ */
			
 
				+@Slf4j
			
 
				+@Service
			
 
				+@RequiredArgsConstructor
			
 
				+public class DocumentElementService {
			
 
				+    
			
 
				+    private final DocumentElementRepository elementRepository;
			
 
				+    
			
 
				+    /**
			
 
				+     * 获取文档的所有结构化元素（按顺序）
			
 
				+     */
			
 
				+    public List<DocumentElement> getElementsByDocumentId(String documentId) {
			
 
				+        return elementRepository.findByDocumentId(documentId);
			
 
				+    }
			
 
				+    
			
 
				+    /**
			
 
				+     * 获取文档中的所有图片
			
 
				+     */
			
 
				+    public List<DocumentElement> getImagesByDocumentId(String documentId) {
			
 
				+        return elementRepository.findImagesByDocumentId(documentId);
			
 
				+    }
			
 
				+    
			
 
				+    /**
			
 
				+     * 获取文档中的所有表格
			
 
				+     */
			
 
				+    public List<DocumentElement> getTablesByDocumentId(String documentId) {
			
 
				+        return elementRepository.findTablesByDocumentId(documentId);
			
 
				+    }
			
 
				+    
			
 
				+    /**
			
 
				+     * 保存文档的结构化元素
			
 
				+     * 
			
 
				+     * @param documentId 文档ID
			
 
				+     * @param elements   元素列表（来自解析服务）
			
 
				+     */
			
 
				+    @Transactional
			
 
				+    public void saveElements(String documentId, List<Map<String, Object>> elements) {
			
 
				+        log.info("保存文档结构化元素: documentId={}, count={}", documentId, elements.size());
			
 
				+        
			
 
				+        // 先删除旧数据
			
 
				+        elementRepository.deleteByDocumentId(documentId);
			
 
				+        
			
 
				+        // 批量插入新数据
			
 
				+        for (Map<String, Object> element : elements) {
			
 
				+            DocumentElement entity = convertToEntity(documentId, element);
			
 
				+            elementRepository.insert(entity);
			
 
				+        }
			
 
				+        
			
 
				+        log.info("文档结构化元素保存完成: documentId={}", documentId);
			
 
				+    }
			
 
				+    
			
 
				+    /**
			
 
				+     * 将解析结果转换为实体
			
 
				+     */
			
 
				+    private DocumentElement convertToEntity(String documentId, Map<String, Object> element) {
			
 
				+        DocumentElement entity = new DocumentElement();
			
 
				+        entity.setId(java.util.UUID.randomUUID().toString().replace("-", ""));
			
 
				+        entity.setDocumentId(documentId);
			
 
				+        entity.setElementIndex((Integer) element.get("index"));
			
 
				+        entity.setElementType((String) element.get("type"));
			
 
				+        entity.setContent((String) element.get("content"));
			
 
				+        
			
 
				+        // 样式
			
 
				+        @SuppressWarnings("unchecked")
			
 
				+        Map<String, Object> style = (Map<String, Object>) element.get("style");
			
 
				+        entity.setStyle(style);
			
 
				+        
			
 
				+        // 图片相关
			
 
				+        entity.setImageUrl((String) element.get("imageUrl"));
			
 
				+        entity.setImagePath((String) element.get("imagePath"));
			
 
				+        entity.setImageAlt((String) element.get("imageAlt"));
			
 
				+        entity.setImageWidth((Integer) element.get("imageWidth"));
			
 
				+        entity.setImageHeight((Integer) element.get("imageHeight"));
			
 
				+        entity.setImageFormat((String) element.get("imageFormat"));
			
 
				+        
			
 
				+        // 表格相关
			
 
				+        entity.setTableIndex((Integer) element.get("tableIndex"));
			
 
				+        entity.setTableRowCount((Integer) element.get("tableRowCount"));
			
 
				+        entity.setTableColCount((Integer) element.get("tableColCount"));
			
 
				+        entity.setTableText((String) element.get("tableText"));
			
 
				+        
			
 
				+        // 表格数据
			
 
				+        @SuppressWarnings("unchecked")
			
 
				+        List<List<Map<String, Object>>> tableRows = (List<List<Map<String, Object>>>) element.get("tableRows");
			
 
				+        if (tableRows != null) {
			
 
				+            entity.setTableData(tableRows);
			
 
				+        }
			
 
				+        
			
 
				+        return entity;
			
 
				+    }
			
 
				+    
			
 
				+    /**
			
 
				+     * 删除文档的所有元素
			
 
				+     */
			
 
				+    @Transactional
			
 
				+    public void deleteByDocumentId(String documentId) {
			
 
				+        elementRepository.deleteByDocumentId(documentId);
			
 
				+    }
			
 
				+    
			
 
				+    /**
			
 
				+     * 获取文档元素统计
			
 
				+     */
			
 
				+    public Map<String, Object> getElementStats(String documentId) {
			
 
				+        Map<String, Object> stats = new HashMap<>();
			
 
				+        
			
 
				+        int total = elementRepository.countByDocumentId(documentId);
			
 
				+        stats.put("total", total);
			
 
				+        
			
 
				+        List<Map<String, Object>> typeStats = elementRepository.countByDocumentIdGroupByType(documentId);
			
 
				+        Map<String, Integer> byType = new HashMap<>();
			
 
				+        for (Map<String, Object> typeStat : typeStats) {
			
 
				+            String type = (String) typeStat.get("element_type");
			
 
				+            Long count = (Long) typeStat.get("count");
			
 
				+            byType.put(type, count.intValue());
			
 
				+        }
			
 
				+        stats.put("byType", byType);
			
 
				+        
			
 
				+        return stats;
			
 
				+    }
			
 
				+}
			
--- a/backend/parse-service/src/main/java/com/lingyue/parse/controller/ImageController.java
+++ b/backend/parse-service/src/main/java/com/lingyue/parse/controller/ImageController.java
@@ -0,0 +1,109 @@
 
				+package com.lingyue.parse.controller;
			
 
				+
			
 
				+import io.swagger.v3.oas.annotations.Operation;
			
 
				+import io.swagger.v3.oas.annotations.Parameter;
			
 
				+import io.swagger.v3.oas.annotations.tags.Tag;
			
 
				+import lombok.extern.slf4j.Slf4j;
			
 
				+import org.springframework.beans.factory.annotation.Value;
			
 
				+import org.springframework.core.io.FileSystemResource;
			
 
				+import org.springframework.core.io.Resource;
			
 
				+import org.springframework.http.HttpHeaders;
			
 
				+import org.springframework.http.MediaType;
			
 
				+import org.springframework.http.ResponseEntity;
			
 
				+import org.springframework.web.bind.annotation.*;
			
 
				+
			
 
				+import java.io.File;
			
 
				+import java.nio.file.Files;
			
 
				+import java.nio.file.Path;
			
 
				+import java.nio.file.Paths;
			
 
				+
			
 
				+/**
			
 
				+ * 图片访问控制器
			
 
				+ * 
			
 
				+ * @author lingyue
			
 
				+ * @since 2026-01-21
			
 
				+ */
			
 
				+@Slf4j
			
 
				+@RestController
			
 
				+@RequestMapping("/api/v1/files")
			
 
				+@Tag(name = "文件访问", description = "图片和文件访问接口")
			
 
				+public class ImageController {
			
 
				+    
			
 
				+    @Value("${file.storage.base-path:/data/lingyue}")
			
 
				+    private String basePath;
			
 
				+    
			
 
				+    /**
			
 
				+     * 获取文档中的图片
			
 
				+     */
			
 
				+    @GetMapping("/images/{documentId}/{imageName}")
			
 
				+    @Operation(summary = "获取文档图片", description = "根据文档ID和图片名称获取图片")
			
 
				+    public ResponseEntity<Resource> getImage(
			
 
				+            @Parameter(description = "文档ID", required = true)
			
 
				+            @PathVariable String documentId,
			
 
				+            @Parameter(description = "图片文件名", required = true)
			
 
				+            @PathVariable String imageName) {
			
 
				+        
			
 
				+        try {
			
 
				+            // 安全检查：防止路径遍历攻击
			
 
				+            if (documentId.contains("..") || imageName.contains("..")) {
			
 
				+                log.warn("非法的路径访问尝试: documentId={}, imageName={}", documentId, imageName);
			
 
				+                return ResponseEntity.badRequest().build();
			
 
				+            }
			
 
				+            
			
 
				+            Path imagePath = Paths.get(basePath, "images", documentId, imageName);
			
 
				+            File imageFile = imagePath.toFile();
			
 
				+            
			
 
				+            if (!imageFile.exists()) {
			
 
				+                log.warn("图片不存在: {}", imagePath);
			
 
				+                return ResponseEntity.notFound().build();
			
 
				+            }
			
 
				+            
			
 
				+            // 检测内容类型
			
 
				+            String contentType = Files.probeContentType(imagePath);
			
 
				+            if (contentType == null) {
			
 
				+                // 根据扩展名推断
			
 
				+                String ext = imageName.substring(imageName.lastIndexOf('.') + 1).toLowerCase();
			
 
				+                switch (ext) {
			
 
				+                    case "png":
			
 
				+                        contentType = "image/png";
			
 
				+                        break;
			
 
				+                    case "jpg":
			
 
				+                    case "jpeg":
			
 
				+                        contentType = "image/jpeg";
			
 
				+                        break;
			
 
				+                    case "gif":
			
 
				+                        contentType = "image/gif";
			
 
				+                        break;
			
 
				+                    case "bmp":
			
 
				+                        contentType = "image/bmp";
			
 
				+                        break;
			
 
				+                    case "webp":
			
 
				+                        contentType = "image/webp";
			
 
				+                        break;
			
 
				+                    case "svg":
			
 
				+                        contentType = "image/svg+xml";
			
 
				+                        break;
			
 
				+                    case "emf":
			
 
				+                        contentType = "image/x-emf";
			
 
				+                        break;
			
 
				+                    case "wmf":
			
 
				+                        contentType = "image/x-wmf";
			
 
				+                        break;
			
 
				+                    default:
			
 
				+                        contentType = "application/octet-stream";
			
 
				+                }
			
 
				+            }
			
 
				+            
			
 
				+            Resource resource = new FileSystemResource(imageFile);
			
 
				+            
			
 
				+            return ResponseEntity.ok()
			
 
				+                    .contentType(MediaType.parseMediaType(contentType))
			
 
				+                    .header(HttpHeaders.CACHE_CONTROL, "max-age=86400") // 缓存1天
			
 
				+                    .body(resource);
			
 
				+            
			
 
				+        } catch (Exception e) {
			
 
				+            log.error("获取图片失败: documentId={}, imageName={}", documentId, imageName, e);
			
 
				+            return ResponseEntity.internalServerError().build();
			
 
				+        }
			
 
				+    }
			
 
				+}
			
--- a/backend/parse-service/src/main/java/com/lingyue/parse/controller/ParseController.java
+++ b/backend/parse-service/src/main/java/com/lingyue/parse/controller/ParseController.java
@@ -3,6 +3,7 @@ package com.lingyue.parse.controller;
 
				 import com.lingyue.common.domain.AjaxResult;
			
 
				 import com.lingyue.parse.service.ParseTaskCenterService;
			
 
				 import com.lingyue.parse.service.ParseTaskExecutor;
			
 
				+import com.lingyue.parse.service.WordStructuredExtractionService;
			
 
				 import com.lingyue.parse.vo.ParseTaskCenterVO;
			
 
				 import io.swagger.v3.oas.annotations.Operation;
			
 
				 import io.swagger.v3.oas.annotations.Parameter;
			
@@ -26,6 +27,7 @@ public class ParseController {
 
				 
			
 
				     private final ParseTaskExecutor parseTaskExecutor;
			
 
				     private final ParseTaskCenterService taskCenterService;
			
 
				+    private final WordStructuredExtractionService wordStructuredExtractionService;
			
 
				 
			
 
				     /**
			
 
				      * 启动解析
			
@@ -57,5 +59,22 @@ public class ParseController {
 
				         }
			
 
				         return AjaxResult.success(detail);
			
 
				     }
			
 
				+    
			
 
				+    /**
			
 
				+     * 获取 Word 文档结构化内容
			
 
				+     * 包含段落、图片、表格的顺序和位置信息
			
 
				+     */
			
 
				+    @GetMapping("/structured/{documentId}")
			
 
				+    @Operation(summary = "获取Word文档结构化内容", description = "提取Word文档的段落、图片、表格，保持原始排版结构")
			
 
				+    public AjaxResult<?> getStructuredContent(
			
 
				+            @Parameter(description = "文档ID", required = true)
			
 
				+            @PathVariable String documentId,
			
 
				+            @Parameter(description = "Word文件路径", required = true)
			
 
				+            @RequestParam("filePath") String filePath) {
			
 
				+        
			
 
				+        WordStructuredExtractionService.WordStructuredResult result = 
			
 
				+                wordStructuredExtractionService.extractStructured(filePath, documentId);
			
 
				+        return AjaxResult.success(result);
			
 
				+    }
			
 
				 }
			
 
				 
			
--- a/backend/parse-service/src/main/java/com/lingyue/parse/service/WordStructuredExtractionService.java
+++ b/backend/parse-service/src/main/java/com/lingyue/parse/service/WordStructuredExtractionService.java
@@ -0,0 +1,414 @@
 
				+package com.lingyue.parse.service;
			
 
				+
			
 
				+import com.lingyue.common.exception.ServiceException;
			
 
				+import lombok.Data;
			
 
				+import lombok.RequiredArgsConstructor;
			
 
				+import lombok.extern.slf4j.Slf4j;
			
 
				+import org.apache.poi.openxml4j.exceptions.InvalidFormatException;
			
 
				+import org.apache.poi.util.Units;
			
 
				+import org.apache.poi.xwpf.usermodel.*;
			
 
				+import org.openxmlformats.schemas.wordprocessingml.x2006.main.CTDrawing;
			
 
				+import org.openxmlformats.schemas.wordprocessingml.x2006.main.CTR;
			
 
				+import org.springframework.beans.factory.annotation.Value;
			
 
				+import org.springframework.stereotype.Service;
			
 
				+
			
 
				+import java.io.*;
			
 
				+import java.nio.file.Files;
			
 
				+import java.nio.file.Path;
			
 
				+import java.nio.file.Paths;
			
 
				+import java.util.*;
			
 
				+
			
 
				+/**
			
 
				+ * Word 文档结构化提取服务
			
 
				+ * 按顺序提取段落、图片、表格，保持原始排版结构
			
 
				+ * 
			
 
				+ * @author lingyue
			
 
				+ * @since 2026-01-21
			
 
				+ */
			
 
				+@Slf4j
			
 
				+@Service
			
 
				+@RequiredArgsConstructor
			
 
				+public class WordStructuredExtractionService {
			
 
				+    
			
 
				+    @Value("${file.storage.base-path:/data/lingyue}")
			
 
				+    private String basePath;
			
 
				+    
			
 
				+    /**
			
 
				+     * 提取 Word 文档结构化内容
			
 
				+     * 
			
 
				+     * @param wordFilePath Word 文件路径
			
 
				+     * @param documentId   文档 ID（用于存储图片）
			
 
				+     * @return 结构化内容列表
			
 
				+     */
			
 
				+    public WordStructuredResult extractStructured(String wordFilePath, String documentId) {
			
 
				+        File wordFile = new File(wordFilePath);
			
 
				+        if (!wordFile.exists()) {
			
 
				+            throw new ServiceException("Word文件不存在: " + wordFilePath);
			
 
				+        }
			
 
				+        
			
 
				+        String fileName = wordFile.getName().toLowerCase();
			
 
				+        if (!fileName.endsWith(".docx")) {
			
 
				+            throw new ServiceException("仅支持 .docx 格式的结构化提取: " + fileName);
			
 
				+        }
			
 
				+        
			
 
				+        try {
			
 
				+            return extractFromDocx(wordFilePath, documentId);
			
 
				+        } catch (IOException e) {
			
 
				+            log.error("提取Word文档结构化内容失败: {}", wordFilePath, e);
			
 
				+            throw new ServiceException("提取Word文档结构化内容失败: " + e.getMessage());
			
 
				+        }
			
 
				+    }
			
 
				+    
			
 
				+    /**
			
 
				+     * 从 .docx 文件提取结构化内容
			
 
				+     */
			
 
				+    private WordStructuredResult extractFromDocx(String filePath, String documentId) throws IOException {
			
 
				+        log.info("开始提取 .docx 结构化内容: {}", filePath);
			
 
				+        
			
 
				+        WordStructuredResult result = new WordStructuredResult();
			
 
				+        result.setDocumentId(documentId);
			
 
				+        List<ContentElement> elements = new ArrayList<>();
			
 
				+        StringBuilder fullText = new StringBuilder();
			
 
				+        
			
 
				+        // 创建图片存储目录
			
 
				+        String imageDir = basePath + "/images/" + documentId;
			
 
				+        Files.createDirectories(Paths.get(imageDir));
			
 
				+        
			
 
				+        try (FileInputStream fis = new FileInputStream(filePath);
			
 
				+             XWPFDocument document = new XWPFDocument(fis)) {
			
 
				+            
			
 
				+            int elementIndex = 0;
			
 
				+            int imageIndex = 0;
			
 
				+            int tableIndex = 0;
			
 
				+            
			
 
				+            // 遍历文档体中的所有元素（保持顺序）
			
 
				+            for (IBodyElement bodyElement : document.getBodyElements()) {
			
 
				+                if (bodyElement instanceof XWPFParagraph) {
			
 
				+                    XWPFParagraph paragraph = (XWPFParagraph) bodyElement;
			
 
				+                    
			
 
				+                    // 检查段落中是否有图片
			
 
				+                    List<XWPFRun> runs = paragraph.getRuns();
			
 
				+                    boolean hasImage = false;
			
 
				+                    
			
 
				+                    for (XWPFRun run : runs) {
			
 
				+                        List<XWPFPicture> pictures = run.getEmbeddedPictures();
			
 
				+                        for (XWPFPicture picture : pictures) {
			
 
				+                            hasImage = true;
			
 
				+                            // 提取图片
			
 
				+                            ContentElement imgElement = extractImage(picture, imageDir, documentId, imageIndex++, elementIndex++);
			
 
				+                            if (imgElement != null) {
			
 
				+                                elements.add(imgElement);
			
 
				+                                fullText.append("[图片: ").append(imgElement.getImageAlt()).append("]\n");
			
 
				+                            }
			
 
				+                        }
			
 
				+                    }
			
 
				+                    
			
 
				+                    // 提取段落文本
			
 
				+                    String text = paragraph.getText();
			
 
				+                    if (text != null && !text.trim().isEmpty()) {
			
 
				+                        ContentElement textElement = new ContentElement();
			
 
				+                        textElement.setIndex(elementIndex++);
			
 
				+                        textElement.setType(detectParagraphType(paragraph, text));
			
 
				+                        textElement.setContent(text.trim());
			
 
				+                        textElement.setStyle(extractParagraphStyle(paragraph));
			
 
				+                        
			
 
				+                        elements.add(textElement);
			
 
				+                        fullText.append(text).append("\n");
			
 
				+                    }
			
 
				+                    
			
 
				+                } else if (bodyElement instanceof XWPFTable) {
			
 
				+                    XWPFTable table = (XWPFTable) bodyElement;
			
 
				+                    
			
 
				+                    // 提取表格
			
 
				+                    ContentElement tableElement = extractTable(table, tableIndex++, elementIndex++);
			
 
				+                    elements.add(tableElement);
			
 
				+                    fullText.append("[表格 ").append(tableIndex).append("]\n");
			
 
				+                    fullText.append(tableElement.getTableText()).append("\n");
			
 
				+                }
			
 
				+            }
			
 
				+            
			
 
				+            result.setElements(elements);
			
 
				+            result.setFullText(fullText.toString());
			
 
				+            result.setImageCount(imageIndex);
			
 
				+            result.setTableCount(tableIndex);
			
 
				+            result.setTotalElements(elements.size());
			
 
				+            
			
 
				+            log.info("结构化提取完成: elements={}, images={}, tables={}", 
			
 
				+                    elements.size(), imageIndex, tableIndex);
			
 
				+        }
			
 
				+        
			
 
				+        return result;
			
 
				+    }
			
 
				+    
			
 
				+    /**
			
 
				+     * 提取图片
			
 
				+     */
			
 
				+    private ContentElement extractImage(XWPFPicture picture, String imageDir, 
			
 
				+                                        String documentId, int imageIndex, int elementIndex) {
			
 
				+        try {
			
 
				+            XWPFPictureData pictureData = picture.getPictureData();
			
 
				+            if (pictureData == null) {
			
 
				+                return null;
			
 
				+            }
			
 
				+            
			
 
				+            String extension = pictureData.suggestFileExtension();
			
 
				+            String imageName = String.format("image_%03d.%s", imageIndex, extension);
			
 
				+            String imagePath = imageDir + "/" + imageName;
			
 
				+            
			
 
				+            // 保存图片
			
 
				+            try (FileOutputStream fos = new FileOutputStream(imagePath)) {
			
 
				+                fos.write(pictureData.getData());
			
 
				+            }
			
 
				+            
			
 
				+            // 获取图片尺寸
			
 
				+            int width = 0;
			
 
				+            int height = 0;
			
 
				+            try {
			
 
				+                // 尝试从 CTDrawing 获取尺寸（EMU 单位）
			
 
				+                width = (int) (picture.getCTPicture().getSpPr().getXfrm().getExt().getCx() / Units.EMU_PER_PIXEL);
			
 
				+                height = (int) (picture.getCTPicture().getSpPr().getXfrm().getExt().getCy() / Units.EMU_PER_PIXEL);
			
 
				+            } catch (Exception e) {
			
 
				+                log.debug("无法获取图片尺寸: {}", e.getMessage());
			
 
				+            }
			
 
				+            
			
 
				+            ContentElement element = new ContentElement();
			
 
				+            element.setIndex(elementIndex);
			
 
				+            element.setType("image");
			
 
				+            element.setContent(null);
			
 
				+            element.setImageUrl("/api/v1/files/images/" + documentId + "/" + imageName);
			
 
				+            element.setImagePath(imagePath);
			
 
				+            element.setImageAlt(picture.getDescription() != null ? picture.getDescription() : "图片 " + (imageIndex + 1));
			
 
				+            element.setImageWidth(width > 0 ? width : null);
			
 
				+            element.setImageHeight(height > 0 ? height : null);
			
 
				+            element.setImageFormat(extension);
			
 
				+            
			
 
				+            log.debug("提取图片: index={}, path={}, size={}x{}", imageIndex, imagePath, width, height);
			
 
				+            return element;
			
 
				+            
			
 
				+        } catch (Exception e) {
			
 
				+            log.warn("提取图片失败: {}", e.getMessage());
			
 
				+            return null;
			
 
				+        }
			
 
				+    }
			
 
				+    
			
 
				+    /**
			
 
				+     * 提取表格
			
 
				+     */
			
 
				+    private ContentElement extractTable(XWPFTable table, int tableIndex, int elementIndex) {
			
 
				+        ContentElement element = new ContentElement();
			
 
				+        element.setIndex(elementIndex);
			
 
				+        element.setType("table");
			
 
				+        element.setTableIndex(tableIndex);
			
 
				+        
			
 
				+        List<List<TableCell>> rows = new ArrayList<>();
			
 
				+        StringBuilder tableText = new StringBuilder();
			
 
				+        
			
 
				+        int rowCount = table.getNumberOfRows();
			
 
				+        int colCount = 0;
			
 
				+        
			
 
				+        for (int i = 0; i < rowCount; i++) {
			
 
				+            XWPFTableRow row = table.getRow(i);
			
 
				+            List<XWPFTableCell> cells = row.getTableCells();
			
 
				+            List<TableCell> rowData = new ArrayList<>();
			
 
				+            
			
 
				+            colCount = Math.max(colCount, cells.size());
			
 
				+            
			
 
				+            for (int j = 0; j < cells.size(); j++) {
			
 
				+                XWPFTableCell cell = cells.get(j);
			
 
				+                TableCell cellData = new TableCell();
			
 
				+                cellData.setRow(i);
			
 
				+                cellData.setCol(j);
			
 
				+                cellData.setText(cell.getText());
			
 
				+                
			
 
				+                // 提取单元格样式
			
 
				+                try {
			
 
				+                    if (cell.getCTTc().getTcPr() != null) {
			
 
				+                        if (cell.getCTTc().getTcPr().getGridSpan() != null) {
			
 
				+                            cellData.setColSpan(cell.getCTTc().getTcPr().getGridSpan().getVal().intValue());
			
 
				+                        }
			
 
				+                        if (cell.getCTTc().getTcPr().getVMerge() != null) {
			
 
				+                            cellData.setMerged(true);
			
 
				+                        }
			
 
				+                    }
			
 
				+                } catch (Exception e) {
			
 
				+                    // 忽略样式提取错误
			
 
				+                }
			
 
				+                
			
 
				+                rowData.add(cellData);
			
 
				+                tableText.append(cell.getText());
			
 
				+                if (j < cells.size() - 1) {
			
 
				+                    tableText.append("\t");
			
 
				+                }
			
 
				+            }
			
 
				+            
			
 
				+            rows.add(rowData);
			
 
				+            tableText.append("\n");
			
 
				+        }
			
 
				+        
			
 
				+        element.setTableRows(rows);
			
 
				+        element.setTableRowCount(rowCount);
			
 
				+        element.setTableColCount(colCount);
			
 
				+        element.setTableText(tableText.toString().trim());
			
 
				+        
			
 
				+        log.debug("提取表格: index={}, rows={}, cols={}", tableIndex, rowCount, colCount);
			
 
				+        return element;
			
 
				+    }
			
 
				+    
			
 
				+    /**
			
 
				+     * 检测段落类型
			
 
				+     */
			
 
				+    private String detectParagraphType(XWPFParagraph paragraph, String text) {
			
 
				+        // 检查样式名称
			
 
				+        String styleName = paragraph.getStyle();
			
 
				+        if (styleName != null) {
			
 
				+            String lowerStyle = styleName.toLowerCase();
			
 
				+            if (lowerStyle.contains("heading") || lowerStyle.contains("标题")) {
			
 
				+                return "heading";
			
 
				+            }
			
 
				+            if (lowerStyle.contains("title")) {
			
 
				+                return "title";
			
 
				+            }
			
 
				+            if (lowerStyle.contains("toc")) {
			
 
				+                return "toc";
			
 
				+            }
			
 
				+        }
			
 
				+        
			
 
				+        // 检查大纲级别
			
 
				+        if (paragraph.getCTP().getPPr() != null && 
			
 
				+            paragraph.getCTP().getPPr().getOutlineLvl() != null) {
			
 
				+            int level = paragraph.getCTP().getPPr().getOutlineLvl().getVal().intValue();
			
 
				+            if (level >= 0 && level <= 9) {
			
 
				+                return "heading" + (level + 1);
			
 
				+            }
			
 
				+        }
			
 
				+        
			
 
				+        // 基于内容检测
			
 
				+        String trimmed = text.trim();
			
 
				+        if (trimmed.length() < 100) {
			
 
				+            if (trimmed.matches("^[一二三四五六七八九十]+[、.].*") ||
			
 
				+                trimmed.matches("^第[一二三四五六七八九十]+[章节部分].*") ||
			
 
				+                trimmed.matches("^\\d+\\.\\d*\\s+.*")) {
			
 
				+                return "heading";
			
 
				+            }
			
 
				+        }
			
 
				+        
			
 
				+        // 检测列表
			
 
				+        if (trimmed.matches("^[•·\\-\\*]\\s+.*") || 
			
 
				+            trimmed.matches("^\\d+[.、)]\\s+.*") ||
			
 
				+            trimmed.matches("^[a-zA-Z][.)]\\s+.*")) {
			
 
				+            return "list_item";
			
 
				+        }
			
 
				+        
			
 
				+        return "paragraph";
			
 
				+    }
			
 
				+    
			
 
				+    /**
			
 
				+     * 提取段落样式
			
 
				+     */
			
 
				+    private Map<String, Object> extractParagraphStyle(XWPFParagraph paragraph) {
			
 
				+        Map<String, Object> style = new HashMap<>();
			
 
				+        
			
 
				+        try {
			
 
				+            // 对齐方式
			
 
				+            ParagraphAlignment alignment = paragraph.getAlignment();
			
 
				+            if (alignment != null) {
			
 
				+                style.put("alignment", alignment.name().toLowerCase());
			
 
				+            }
			
 
				+            
			
 
				+            // 缩进
			
 
				+            int indentLeft = paragraph.getIndentationLeft();
			
 
				+            if (indentLeft > 0) {
			
 
				+                style.put("indentLeft", indentLeft);
			
 
				+            }
			
 
				+            int indentFirstLine = paragraph.getIndentationFirstLine();
			
 
				+            if (indentFirstLine > 0) {
			
 
				+                style.put("indentFirstLine", indentFirstLine);
			
 
				+            }
			
 
				+            
			
 
				+            // 行距
			
 
				+            if (paragraph.getSpacingBetween() > 0) {
			
 
				+                style.put("lineSpacing", paragraph.getSpacingBetween());
			
 
				+            }
			
 
				+            
			
 
				+            // 字体（从第一个 run 获取）
			
 
				+            List<XWPFRun> runs = paragraph.getRuns();
			
 
				+            if (!runs.isEmpty()) {
			
 
				+                XWPFRun firstRun = runs.get(0);
			
 
				+                if (firstRun.getFontFamily() != null) {
			
 
				+                    style.put("fontFamily", firstRun.getFontFamily());
			
 
				+                }
			
 
				+                if (firstRun.getFontSizeAsDouble() != null && firstRun.getFontSizeAsDouble() > 0) {
			
 
				+                    style.put("fontSize", firstRun.getFontSizeAsDouble());
			
 
				+                }
			
 
				+                if (firstRun.isBold()) {
			
 
				+                    style.put("bold", true);
			
 
				+                }
			
 
				+                if (firstRun.isItalic()) {
			
 
				+                    style.put("italic", true);
			
 
				+                }
			
 
				+                if (firstRun.getUnderline() != UnderlinePatterns.NONE) {
			
 
				+                    style.put("underline", true);
			
 
				+                }
			
 
				+                if (firstRun.getColor() != null) {
			
 
				+                    style.put("color", firstRun.getColor());
			
 
				+                }
			
 
				+            }
			
 
				+        } catch (Exception e) {
			
 
				+            log.debug("提取段落样式失败: {}", e.getMessage());
			
 
				+        }
			
 
				+        
			
 
				+        return style.isEmpty() ? null : style;
			
 
				+    }
			
 
				+    
			
 
				+    /**
			
 
				+     * 结构化提取结果
			
 
				+     */
			
 
				+    @Data
			
 
				+    public static class WordStructuredResult {
			
 
				+        private String documentId;
			
 
				+        private List<ContentElement> elements;
			
 
				+        private String fullText;
			
 
				+        private int imageCount;
			
 
				+        private int tableCount;
			
 
				+        private int totalElements;
			
 
				+    }
			
 
				+    
			
 
				+    /**
			
 
				+     * 内容元素
			
 
				+     */
			
 
				+    @Data
			
 
				+    public static class ContentElement {
			
 
				+        private int index;                    // 元素在文档中的顺序索引
			
 
				+        private String type;                  // paragraph/heading/heading1-9/list_item/image/table/title/toc
			
 
				+        private String content;               // 文本内容（仅文本类型）
			
 
				+        private Map<String, Object> style;    // 样式信息
			
 
				+        
			
 
				+        // 图片相关
			
 
				+        private String imageUrl;              // 图片访问 URL
			
 
				+        private String imagePath;             // 图片存储路径
			
 
				+        private String imageAlt;              // 图片描述
			
 
				+        private Integer imageWidth;           // 图片宽度（像素）
			
 
				+        private Integer imageHeight;          // 图片高度（像素）
			
 
				+        private String imageFormat;           // 图片格式
			
 
				+        
			
 
				+        // 表格相关
			
 
				+        private Integer tableIndex;           // 表格索引
			
 
				+        private List<List<TableCell>> tableRows; // 表格行数据
			
 
				+        private Integer tableRowCount;        // 行数
			
 
				+        private Integer tableColCount;        // 列数
			
 
				+        private String tableText;             // 表格文本（用于搜索）
			
 
				+    }
			
 
				+    
			
 
				+    /**
			
 
				+     * 表格单元格
			
 
				+     */
			
 
				+    @Data
			
 
				+    public static class TableCell {
			
 
				+        private int row;
			
 
				+        private int col;
			
 
				+        private String text;
			
 
				+        private Integer colSpan;              // 列合并数
			
 
				+        private Integer rowSpan;              // 行合并数
			
 
				+        private boolean merged;               // 是否为合并单元格
			
 
				+    }
			
 
				+}
			
--- a/database/migrations/V2026_01_21_02__add_document_elements.sql
+++ b/database/migrations/V2026_01_21_02__add_document_elements.sql
@@ -0,0 +1,57 @@
 
				+-- 文档结构化元素表
			
 
				+-- 存储从 Word/PDF 等文档中提取的结构化内容（段落、图片、表格）
			
 
				+
			
 
				+CREATE TABLE IF NOT EXISTS document_elements (
			
 
				+    id VARCHAR(64) PRIMARY KEY,
			
 
				+    document_id VARCHAR(64) NOT NULL,
			
 
				+    element_index INT NOT NULL,              -- 元素在文档中的顺序
			
 
				+    element_type VARCHAR(32) NOT NULL,       -- paragraph/heading/heading1-9/list_item/image/table/title/toc
			
 
				+    content TEXT,                            -- 文本内容（文本类型）
			
 
				+    style JSONB,                             -- 样式信息（字体、对齐、缩进等）
			
 
				+    
			
 
				+    -- 图片相关
			
 
				+    image_url VARCHAR(500),                  -- 图片访问URL
			
 
				+    image_path VARCHAR(500),                 -- 图片存储路径
			
 
				+    image_alt VARCHAR(255),                  -- 图片描述
			
 
				+    image_width INT,                         -- 图片宽度（像素）
			
 
				+    image_height INT,                        -- 图片高度（像素）
			
 
				+    image_format VARCHAR(16),                -- 图片格式
			
 
				+    
			
 
				+    -- 表格相关
			
 
				+    table_index INT,                         -- 表格索引
			
 
				+    table_data JSONB,                        -- 表格数据（行列内容）
			
 
				+    table_row_count INT,                     -- 行数
			
 
				+    table_col_count INT,                     -- 列数
			
 
				+    table_text TEXT,                         -- 表格文本（用于搜索）
			
 
				+    
			
 
				+    -- 审计字段
			
 
				+    create_by VARCHAR(64),
			
 
				+    create_by_name VARCHAR(128),
			
 
				+    create_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
			
 
				+    update_by VARCHAR(64),
			
 
				+    update_by_name VARCHAR(128),
			
 
				+    update_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP
			
 
				+);
			
 
				+
			
 
				+-- 索引
			
 
				+CREATE INDEX IF NOT EXISTS idx_document_elements_document_id ON document_elements(document_id);
			
 
				+CREATE INDEX IF NOT EXISTS idx_document_elements_type ON document_elements(element_type);
			
 
				+CREATE INDEX IF NOT EXISTS idx_document_elements_order ON document_elements(document_id, element_index);
			
 
				+
			
 
				+-- 注释
			
 
				+COMMENT ON TABLE document_elements IS '文档结构化元素表';
			
 
				+COMMENT ON COLUMN document_elements.element_index IS '元素在文档中的顺序索引';
			
 
				+COMMENT ON COLUMN document_elements.element_type IS '元素类型：paragraph/heading/image/table等';
			
 
				+COMMENT ON COLUMN document_elements.style IS '样式信息JSON：{alignment, fontSize, bold, color等}';
			
 
				+COMMENT ON COLUMN document_elements.table_data IS '表格数据JSON：[[{row,col,text,colSpan},...],...]';
			
 
				+
			
 
				+-- 更新 documents 表，添加结构化解析状态
			
 
				+ALTER TABLE documents ADD COLUMN IF NOT EXISTS structured_status VARCHAR(20) DEFAULT 'pending';
			
 
				+ALTER TABLE documents ADD COLUMN IF NOT EXISTS image_count INT DEFAULT 0;
			
 
				+ALTER TABLE documents ADD COLUMN IF NOT EXISTS table_count INT DEFAULT 0;
			
 
				+ALTER TABLE documents ADD COLUMN IF NOT EXISTS element_count INT DEFAULT 0;
			
 
				+
			
 
				+COMMENT ON COLUMN documents.structured_status IS '结构化解析状态：pending/completed/failed';
			
 
				+COMMENT ON COLUMN documents.image_count IS '文档中的图片数量';
			
 
				+COMMENT ON COLUMN documents.table_count IS '文档中的表格数量';
			
 
				+COMMENT ON COLUMN documents.element_count IS '文档中的元素总数';