Update retrieval, rerank, and indexing changes

2026-02-11 13:55:19 +08:00
parent 8d062d39b5
commit 297cc03770
7 changed files with 501 additions and 287 deletions
--- a/modules/story-summary/vector/retrieval/metrics.js
+++ b/modules/story-summary/vector/retrieval/metrics.js
@@ -8,7 +8,7 @@
 // 架构变更（v3 → v4）：
 // - evidence 区块反映 L0-only 融合 + L1 按楼层拉取的两阶段架构
 // - 删除 mergedByType / selectedByType（不再有混合池）
-// - 新增 l0Candidates / l0Selected / l1Pulled / l1Attached / l1CosineTime
+// - 新增 floorCandidates / floorsSelected / l0Collected / l1Pulled / l1Attached / l1CosineTime
 // - fusion 区块明确标注 L0-only（删除 anchorCount）
 // - quality.chunkRealRatio → quality.l1AttachRate
 // ═══════════════════════════════════════════════════════════════════════════
@@ -48,10 +48,10 @@ export function createMetrics() {
            searchTime: 0,
        },

-        // Fusion (W-RRF, L0-only) - 多路融合
+        // Fusion (W-RRF, floor-level) - 多路融合
        fusion: {
-            denseCount: 0,
-            lexCount: 0,
+            denseFloors: 0,
+            lexFloors: 0,
            totalUnique: 0,
            afterCap: 0,
            time: 0,
@@ -80,25 +80,27 @@ export function createMetrics() {
            entityNames: [],
        },

-        // Evidence (Two-Stage: L0 rerank → L1 pull) - 原文证据
+        // Evidence (Two-Stage: Floor rerank → L1 pull) - 原文证据
        evidence: {
-            // Stage 1: L0
-            l0Candidates: 0,       // W-RRF 融合后的 L0 候选数
-            l0Selected: 0,         // rerank 后选中的 L0 数
+            // Stage 1: Floor
+            floorCandidates: 0,    // W-RRF 融合后的 floor 候选数
+            floorsSelected: 0,     // rerank 后选中的 floor 数
+            l0Collected: 0,        // 选中 floor 中收集的 L0 atom 总数
            rerankApplied: false,
            rerankFailed: false,
            beforeRerank: 0,
            afterRerank: 0,
            rerankTime: 0,
            rerankScores: null,
+            rerankDocAvgLength: 0, // rerank document 平均字符数

            // Stage 2: L1
            l1Pulled: 0,           // 从 DB 拉取的 L1 chunk 总数
-            l1Attached: 0,         // 实际挂载的 L1 数（top-1 × 楼层 × 2侧）
+            l1Attached: 0,         // 实际挂载的 L1 数（top-1 × floor × 2侧）
            l1CosineTime: 0,       // L1 cosine 打分耗时

            // 装配
-            contextPairsAdded: 0,  // 保留兼容（= l1Attached 中 USER 侧数量）
+            contextPairsAdded: 0,  // USER 侧挂载数量
            tokens: 0,
            assemblyTime: 0,
        },
@@ -149,7 +151,7 @@ export function createMetrics() {
        quality: {
            constraintCoverage: 100,
            eventPrecisionProxy: 0,
-            l1AttachRate: 0,       // 有 L1 挂载的 L0 占比
+            l1AttachRate: 0,       // 有 L1 挂载的 floor 占比
            potentialIssues: [],
        },
    };
@@ -223,10 +225,10 @@ export function formatMetricsLog(metrics) {
    lines.push(`└─ search_time: ${m.lexical.searchTime}ms`);
    lines.push('');

-    // Fusion (W-RRF, L0-only)
-    lines.push('[Fusion] W-RRF (L0-only) - 多路融合');
-    lines.push(`├─ dense_count: ${m.fusion.denseCount}`);
-    lines.push(`├─ lex_count: ${m.fusion.lexCount}`);
+    // Fusion (W-RRF, floor-level)
+    lines.push('[Fusion] W-RRF (floor-level) - 多路融合');
+    lines.push(`├─ dense_floors: ${m.fusion.denseFloors}`);
+    lines.push(`├─ lex_floors: ${m.fusion.lexFloors}`);
    lines.push(`├─ total_unique: ${m.fusion.totalUnique}`);
    lines.push(`├─ after_cap: ${m.fusion.afterCap}`);
    lines.push(`└─ time: ${m.fusion.time}ms`);
@@ -277,28 +279,32 @@ export function formatMetricsLog(metrics) {
    lines.push(`└─ entities_used: ${m.event.entitiesUsed} [${(m.event.entityNames || []).join(', ')}]`);
    lines.push('');

-    // Evidence (Two-Stage)
-    lines.push('[Evidence] Two-Stage: L0 Locate → L1 Pull');
-    lines.push(`├─ Stage 1 (L0):`);
-    lines.push(`│   ├─ candidates (post-fusion): ${m.evidence.l0Candidates}`);
+    // Evidence (Two-Stage: Floor Rerank → L1 Pull)
+    lines.push('[Evidence] Two-Stage: Floor Rerank → L1 Pull');
+    lines.push(`├─ Stage 1 (Floor Rerank):`);
+    lines.push(`│   ├─ floor_candidates (post-fusion): ${m.evidence.floorCandidates}`);

    if (m.evidence.rerankApplied) {
        lines.push(`│   ├─ rerank_applied: true`);
        if (m.evidence.rerankFailed) {
-            lines.push(`│   ├─ rerank_failed: ⚠ YES (using fusion order)`);
+            lines.push(`│   │   ⚠ rerank_failed: using fusion order`);
        }
-        lines.push(`│   │   ├─ before: ${m.evidence.beforeRerank}`);
-        lines.push(`│   │   ├─ after: ${m.evidence.afterRerank}`);
+        lines.push(`│   │   ├─ before: ${m.evidence.beforeRerank} floors`);
+        lines.push(`│   │   ├─ after: ${m.evidence.afterRerank} floors`);
        lines.push(`│   │   └─ time: ${m.evidence.rerankTime}ms`);
        if (m.evidence.rerankScores) {
            const rs = m.evidence.rerankScores;
            lines.push(`│   ├─ rerank_scores: min=${rs.min}, max=${rs.max}, mean=${rs.mean}`);
        }
+        if (m.evidence.rerankDocAvgLength > 0) {
+            lines.push(`│   ├─ rerank_doc_avg_length: ${m.evidence.rerankDocAvgLength} chars`);
+        }
    } else {
        lines.push(`│   ├─ rerank_applied: false`);
    }

-    lines.push(`│   └─ selected: ${m.evidence.l0Selected}`);
+    lines.push(`│   ├─ floors_selected: ${m.evidence.floorsSelected}`);
+    lines.push(`│   └─ l0_atoms_collected: ${m.evidence.l0Collected}`);
    lines.push(`├─ Stage 2 (L1):`);
    lines.push(`│   ├─ pulled: ${m.evidence.l1Pulled}`);
    lines.push(`│   ├─ attached: ${m.evidence.l1Attached}`);
@@ -345,9 +351,7 @@ export function formatMetricsLog(metrics) {
    lines.push(`├─ constraint_filter: ${m.timing.constraintFilter}ms`);
    lines.push(`├─ event_retrieval: ${m.timing.eventRetrieval}ms`);
    lines.push(`├─ evidence_retrieval: ${m.timing.evidenceRetrieval}ms`);
-    if (m.timing.evidenceRerank > 0) {
-        lines.push(`├─ evidence_rerank: ${m.timing.evidenceRerank}ms`);
-    }
+    lines.push(`├─ floor_rerank: ${m.timing.evidenceRerank || 0}ms`);
    lines.push(`├─ l1_cosine: ${m.evidence.l1CosineTime}ms`);
    lines.push(`├─ evidence_assembly: ${m.timing.evidenceAssembly}ms`);
    lines.push(`├─ formatting: ${m.timing.formatting}ms`);
@@ -406,20 +410,20 @@ export function detectIssues(metrics) {
    // 词法检索问题
    // ─────────────────────────────────────────────────────────────────

-    if ((m.lexical.terms || []).length > 0 && m.lexical.atomHits === 0 && m.lexical.chunkHits === 0 && m.lexical.eventHits === 0) {
+    if ((m.lexical.terms || []).length > 0 && m.lexical.chunkHits === 0 && m.lexical.eventHits === 0) {
        issues.push('Lexical search returned zero hits - terms may not match any indexed content');
    }

    // ─────────────────────────────────────────────────────────────────
-    // 融合问题（L0-only）
+    // 融合问题（floor-level）
    // ─────────────────────────────────────────────────────────────────

-    if (m.fusion.lexCount === 0 && m.fusion.denseCount > 0) {
-        issues.push('No lexical L0 candidates in fusion - hybrid retrieval not contributing');
+    if (m.fusion.lexFloors === 0 && m.fusion.denseFloors > 0) {
+        issues.push('No lexical floors in fusion - hybrid retrieval not contributing');
    }

    if (m.fusion.afterCap === 0) {
-        issues.push('Fusion produced zero L0 candidates - all retrieval paths may have failed');
+        issues.push('Fusion produced zero floor candidates - all retrieval paths may have failed');
    }

    // ─────────────────────────────────────────────────────────────────
@@ -463,29 +467,30 @@ export function detectIssues(metrics) {
    }

    // ─────────────────────────────────────────────────────────────────
-    // L0 Rerank 问题
+    // Floor Rerank 问题
    // ─────────────────────────────────────────────────────────────────

-    if (m.evidence.rerankApplied) {
-        if (m.evidence.beforeRerank > 0 && m.evidence.afterRerank > 0) {
-            const filterRatio = 1 - (m.evidence.afterRerank / m.evidence.beforeRerank);
-            if (filterRatio > 0.7) {
-                issues.push(`High L0 rerank filter ratio (${(filterRatio * 100).toFixed(0)}%) - many irrelevant L0 in fusion output`);
-            }
-        }
+    if (m.evidence.rerankFailed) {
+        issues.push('Rerank API failed — using fusion rank order as fallback, relevance scores are zero');
+    }

+    if (m.evidence.rerankApplied && !m.evidence.rerankFailed) {
        if (m.evidence.rerankScores) {
            const rs = m.evidence.rerankScores;
-            if (rs.max < 0.5) {
-                issues.push(`Low L0 rerank scores (max=${rs.max}) - query may be poorly matched`);
+            if (rs.max < 0.3) {
+                issues.push(`Low floor rerank scores (max=${rs.max}) - query-document domain mismatch`);
            }
-            if (rs.mean < 0.3) {
-                issues.push(`Very low average L0 rerank score (mean=${rs.mean}) - context may be weak`);
+            if (rs.mean < 0.2) {
+                issues.push(`Very low average floor rerank score (mean=${rs.mean}) - context may be weak`);
            }
        }

-        if (m.evidence.rerankTime > 2000) {
-            issues.push(`Slow L0 rerank (${m.evidence.rerankTime}ms) - may affect response time`);
+        if (m.evidence.rerankTime > 3000) {
+            issues.push(`Slow floor rerank (${m.evidence.rerankTime}ms) - may affect response time`);
+        }
+
+        if (m.evidence.rerankDocAvgLength > 3000) {
+            issues.push(`Large rerank documents (avg ${m.evidence.rerankDocAvgLength} chars) - may reduce rerank precision`);
        }
    }

@@ -493,21 +498,17 @@ export function detectIssues(metrics) {
    // L1 挂载问题
    // ─────────────────────────────────────────────────────────────────

-    if (m.evidence.rerankFailed) {
-        issues.push('Rerank API failed — using fusion rank order as fallback, relevance scores are zero');
-    }
-
-    if (m.evidence.l0Selected > 0 && m.evidence.l1Pulled === 0) {
+    if (m.evidence.floorsSelected > 0 && m.evidence.l1Pulled === 0) {
        issues.push('Zero L1 chunks pulled - L1 vectors may not exist or DB read failed');
    }

-    if (m.evidence.l0Selected > 0 && m.evidence.l1Attached === 0 && m.evidence.l1Pulled > 0) {
-        issues.push('L1 chunks pulled but none attached - cosine scores may be too low or floor mismatch');
+    if (m.evidence.floorsSelected > 0 && m.evidence.l1Attached === 0 && m.evidence.l1Pulled > 0) {
+        issues.push('L1 chunks pulled but none attached - cosine scores may be too low');
    }

    const l1AttachRate = m.quality.l1AttachRate || 0;
-    if (m.evidence.l0Selected > 5 && l1AttachRate < 20) {
-        issues.push(`Low L1 attach rate (${l1AttachRate}%) - many L0 lack concrete dialogue evidence`);
+    if (m.evidence.floorsSelected > 3 && l1AttachRate < 50) {
+        issues.push(`Low L1 attach rate (${l1AttachRate}%) - selected floors lack L1 chunks`);
    }

    // ─────────────────────────────────────────────────────────────────