Pārlūkot izejas kodu

fix: 移除注释中的反斜杠u避免Java Unicode转义错误

Java编译器会在源代码级别处理反斜杠u,即使在注释中也会触发
将注释中的 backslash-u 改为文字描述
何文松 4 nedēļas atpakaļ
vecāks
revīzija
23d1a7d52a

+ 4 - 3
backend/parse-service/src/main/java/com/lingyue/parse/service/WordStructuredExtractionService.java

@@ -350,8 +350,9 @@ public class WordStructuredExtractionService {
         String result = text;
         
         // 移除 TOC 域代码头(支持多种格式)
-        // 格式: TOC \o "1-2" \h \z \u (注意: Java 中 \u 是 Unicode 转义,需要特殊处理)
+        // 格式: TOC backslash-o "1-2" backslash-h backslash-z backslash-u
         result = result.replaceAll("TOC\\s*(\\\\[ohzlwnt]\\s*(\"[^\"]*\")?\\s*)+", "");
+        // 单独处理 backslash-u (Java中反斜杠u是Unicode转义)
         result = result.replaceAll("TOC\\s*(\\\\u\\s*(\"[^\"]*\")?\\s*)+", "");
         
         // 移除 HYPERLINK 域代码
@@ -372,9 +373,9 @@ public class WordStructuredExtractionService {
         // 格式: PAGEREF _Toc176869144 \h 1
         result = result.replaceAll("PAGEREF\\s+\\S+\\s*(\\\\h)?\\s*\\d*", "");
         
-        // 移除其他常见域代码标记(如 \l \o \h \z \u)
-        // 注意: Java 中 \u 是 Unicode 转义,需要分开处理
+        // 移除其他常见域代码标记(如 backslash-l backslash-o backslash-h backslash-z)
         result = result.replaceAll("\\\\[lohzwnt]\\s*", "");
+        // 单独处理 backslash-u
         result = result.replaceAll("\\\\u\\s*", "");
         
         // 清理多余空格