Improve rerank failure handling and tokenizer JP support

2026-02-10 17:52:09 +08:00
parent fbf34815bb
commit 062df60570
7 changed files with 655 additions and 285 deletions
--- a/modules/story-summary/vector/utils/tokenizer.js
+++ b/modules/story-summary/vector/utils/tokenizer.js
@@ -49,6 +49,9 @@ let jiebaCut = null;
 /** @type {Function|null} jieba add_word 函数引用 */
 let jiebaAddWord = null;

+/** @type {object|null} TinySegmenter 实例 */
+let tinySegmenter = null;
+
 // ═══════════════════════════════════════════════════════════════════════════
 // 实体词典
 // ═══════════════════════════════════════════════════════════════════════════
@@ -76,12 +79,13 @@ const STOP_WORDS = new Set([
    '时候', '现在', '已经', '还是', '只是', '可能', '应该', '知道',
    '觉得', '开始', '一下', '一些', '这个', '那个', '他们', '我们',
    '你们', '自己', '起来', '出来', '进去', '回来', '过来', '下去',
-    // 日语助词 + 常见虚词
-    'は', 'が', 'を', 'に', 'で', 'と', 'の', 'も', 'へ', 'や',
-    'か', 'な', 'よ', 'ね', 'わ', 'だ', 'です', 'ます', 'た', 'て',
-    'する', 'いる', 'ある', 'なる', 'れる', 'られる', 'ない',
+    // 日语常见虚词（≥2字，匹配 TinySegmenter 产出粒度）
+    'です', 'ます', 'した', 'して', 'する', 'ない', 'いる', 'ある',
+    'なる', 'れる', 'られ', 'られる',
    'この', 'その', 'あの', 'どの', 'ここ', 'そこ', 'あそこ',
    'これ', 'それ', 'あれ', 'どれ',
+    'ても', 'から', 'まで', 'ので', 'のに', 'けど', 'だけ',
+    'もう', 'まだ', 'とても', 'ちょっと', 'やっぱり',
    // 英文常见停用词
    'the', 'a', 'an', 'is', 'are', 'was', 'were', 'be', 'been',
    'being', 'have', 'has', 'had', 'do', 'does', 'did', 'will',
@@ -100,6 +104,34 @@ const STOP_WORDS = new Set([
 // Unicode 分类
 // ═══════════════════════════════════════════════════════════════════════════

+/**
+ * 判断字符是否为假名（平假名 + 片假名）
+ * @param {number} code - charCode
+ * @returns {boolean}
+ */
+function isKana(code) {
+    return (
+        (code >= 0x3040 && code <= 0x309F) ||   // Hiragana
+        (code >= 0x30A0 && code <= 0x30FF) ||   // Katakana
+        (code >= 0x31F0 && code <= 0x31FF) ||   // Katakana Extensions
+        (code >= 0xFF65 && code <= 0xFF9F)       // Halfwidth Katakana
+    );
+}
+
+/**
+ * 判断字符是否为 CJK 汉字（不含假名）
+ * @param {number} code - charCode
+ * @returns {boolean}
+ */
+function isCJK(code) {
+    return (
+        (code >= 0x4E00 && code <= 0x9FFF) ||
+        (code >= 0x3400 && code <= 0x4DBF) ||
+        (code >= 0xF900 && code <= 0xFAFF) ||
+        (code >= 0x20000 && code <= 0x2A6DF)
+    );
+}
+
 /**
 * 判断字符是否为亚洲文字（CJK + 假名）
 * @param {number} code - charCode
@@ -107,14 +139,7 @@ const STOP_WORDS = new Set([
 */
 function isAsian(code) {
    return (
-        (code >= 0x4E00 && code <= 0x9FFF) ||   // CJK Unified Ideographs
-        (code >= 0x3400 && code <= 0x4DBF) ||   // CJK Extension A
-        (code >= 0x3040 && code <= 0x309F) ||   // Hiragana
-        (code >= 0x30A0 && code <= 0x30FF) ||   // Katakana
-        (code >= 0x31F0 && code <= 0x31FF) ||   // Katakana Phonetic Extensions
-        (code >= 0xFF65 && code <= 0xFF9F) ||   // Halfwidth Katakana
-        (code >= 0xF900 && code <= 0xFAFF) ||   // CJK Compatibility Ideographs
-        (code >= 0x20000 && code <= 0x2A6DF)    // CJK Extension B
+        isCJK(code) || isKana(code)
    );
 }

@@ -195,6 +220,31 @@ function segmentByScript(text) {
    return segments;
 }

+// ═══════════════════════════════════════════════════════════════════════════
+// 亚洲文字语言检测（中文 vs 日语）
+// ═══════════════════════════════════════════════════════════════════════════
+
+/**
+ * 检测亚洲文字段的语言
+ *
+ * 假名占比 > 30% 判定为日语（日语文本中假名通常占 40-60%）
+ *
+ * @param {string} text - 亚洲文字段
+ * @returns {'zh'|'ja'|'other'}
+ */
+function detectAsianLanguage(text) {
+    let kanaCount = 0;
+    let cjkCount = 0;
+    for (const ch of text) {
+        const code = ch.codePointAt(0);
+        if (isKana(code)) kanaCount++;
+        else if (isCJK(code)) cjkCount++;
+    }
+    const total = kanaCount + cjkCount;
+    if (total === 0) return 'other';
+    return (kanaCount / total) > 0.3 ? 'ja' : 'zh';
+}
+
 // ═══════════════════════════════════════════════════════════════════════════
 // 实体保护（最长匹配占位符替换）
 // ═══════════════════════════════════════════════════════════════════════════
@@ -343,6 +393,26 @@ function tokenizeAsianFallback(text) {
    return tokens;
 }

+/**
+ * 用 TinySegmenter 处理日语文字段
+ * @param {string} text
+ * @returns {string[]}
+ */
+function tokenizeJapanese(text) {
+    if (tinySegmenter) {
+        try {
+            const words = tinySegmenter.segment(text);
+            return words
+                .map(w => String(w || '').trim())
+                .filter(w => w.length >= 2);
+        } catch (e) {
+            xbLog.warn(MODULE_ID, 'TinySegmenter 分词异常，降级处理', e);
+            return tokenizeAsianFallback(text);
+        }
+    }
+    return tokenizeAsianFallback(text);
+}
+
 // ═══════════════════════════════════════════════════════════════════════════
 // 分词：拉丁文字
 // ═══════════════════════════════════════════════════════════════════════════
@@ -374,6 +444,9 @@ function tokenizeLatin(text) {
 * @returns {Promise<boolean>} 是否加载成功
 */
 export async function preload() {
+    // TinySegmenter 独立于结巴状态（内部有防重入）
+    loadTinySegmenter();
+
    // 已就绪
    if (wasmState === WasmState.READY) return true;

@@ -443,6 +516,25 @@ export async function preload() {
    }
 }

+/**
+ * 加载 TinySegmenter（懒加载，不阻塞）
+ */
+async function loadTinySegmenter() {
+    if (tinySegmenter) return;
+
+    try {
+        // eslint-disable-next-line no-unsanitized/method
+        const mod = await import(
+            `/${extensionFolderPath}/libs/tiny-segmenter.js`
+        );
+        const Ctor = mod.TinySegmenter || mod.default;
+        tinySegmenter = new Ctor();
+        xbLog.info(MODULE_ID, 'TinySegmenter 加载完成');
+    } catch (e) {
+        xbLog.warn(MODULE_ID, 'TinySegmenter 加载失败，日语将使用降级分词', e);
+    }
+}
+
 // ═══════════════════════════════════════════════════════════════════════════
 // 公开接口：isReady
 // ═══════════════════════════════════════════════════════════════════════════
@@ -598,7 +690,10 @@ function tokenizeCore(text) {
    const rawTokens = [];
    for (const seg of segments) {
        if (seg.type === 'asian') {
-            if (wasmState === WasmState.READY && jiebaCut) {
+            const lang = detectAsianLanguage(seg.text);
+            if (lang === 'ja') {
+                rawTokens.push(...tokenizeJapanese(seg.text));
+            } else if (wasmState === WasmState.READY && jiebaCut) {
                rawTokens.push(...tokenizeAsianJieba(seg.text));
            } else {
                rawTokens.push(...tokenizeAsianFallback(seg.text));