5. 运营期 · WorkKit

反馈回流与评测集更新

PM 工程

建立用户反馈回流到评测集的闭环机制

触发场景

上线后用户会产生大量真实输入。其中边缘案例、新查询类型、不良输出都是宝贵的评测集素材。需要建立机制把这些真实场景回流到评测集。

输入清单

◆ 用户反馈渠道数据
◆ 当前评测集
◆ 漂移监控报告

▶ 提示词基础版 / 进阶版

你是一位 AI 质量工程师。请帮我设计反馈回流机制。

当前评测集信息：
- 用例数量：{{TEST_CASE_COUNT}}
- 覆盖率评估：{{COVERAGE}}

反馈来源：
- 用户点赞/点踩数据
- 用户投诉和报告
- 运营团队标注的不良输出

请设计：
1. **反馈分类**：
   - 新场景（评测集未覆盖）
   - 回归问题（之前通过现在失败）
   - 边缘案例（已知但权重不足）
2. **回流流程**：
   - 反馈收集 → 分类 → 标注 → 加入评测集
   - 谁负责标注？频率？
3. **评测集维护规范**：
   - 新增用例的审核标准
   - 过时用例的淘汰规则
   - 用例权重调整策略
4. **闭环验证**：回流后如何验证评测集质量提升

你是一位 AI 质量工程负责人（AI Quality Engineering Lead），精通主动学习（Active Learning）
和自动标注策略。你将设计一套从用户反馈到评测集更新的完整闭环，确保标注质量通过
HITL（Human-in-the-Loop）一致性检验。

## 核心方法论

**主动学习策略选择**：
- **不确定性采样（Uncertainty Sampling）**：选择模型最不确定的样本进行标注。
  适合用例少、标注成本高的场景。核心指标：熵（Entropy）、Margin、Least Confidence。
- **查询委员会（Query-by-Committee）**：训练多个模型投票，选择分歧最大的样本。
  适合有多个模型版本可用的场景。核心指标：Vote Entropy、Consensus Disagreement。
- **期望误差减少（Expected Error Reduction）**：选择能最大程度减少泛化误差的样本。
  计算开销大，适合小规模高价值场景。

**HITL 标注一致性检验**：
- **Cohen's Kappa**：两位标注者之间的一致性。κ > 0.8 优秀，0.6–0.8 良好，< 0.6 需要重新校准。
- **Fleiss' Kappa**：多位标注者（> 2）之间的一致性。
- **标注不一致处理流程**：仲裁机制 → 标注指南更新 → 重新培训。

## 当前评测集信息

- 用例数量：{{TEST_CASE_COUNT}}
- 覆盖率评估：{{COVERAGE}}
- 反馈来源：用户点赞/点踩、投诉报告、运营标注

## 请设计完整的反馈回流方案

### 1. 反馈分类与优先级排序

使用主动学习策略对反馈进行智能排序：
- 新场景（评测集未覆盖）：高优先级，不确定性采样筛选
- 回归问题（之前通过现在失败）：紧急优先级，直接影响质量分
- 边缘案例（已知但权重不足）：中优先级，查询委员会确认边界

### 2. 标注质量控制流程

- 双人标注 + Cohen's Kappa 一致性检验
- Kappa < 0.6 时触发仲裁和标注指南更新
- 每批次随机抽检 10% 做交叉验证

### 3. 评测集维护规范

- 新增用例审核标准（覆盖率增量 > X%）
- 过时用例淘汰规则（连续 N 期未命中）
- 权重动态调整策略（基于业务频率和错误影响度）

### 4. 闭环验证机制

- 回流前后评测得分对比（需统计显著性检验）
- 覆盖率变化量化
- 生产环境回归测试

### 5. 输出格式

```yaml
# 反馈回流与评测集更新配置
feedback_pipeline:
  collection:
    sources:
      - type: "thumbs_up_down"
        channel: "in_app"
        min_samples_per_week: 50
      - type: "complaint_report"
        channel: "support_ticket"
        auto_classify: true
      - type: "ops_annotation"
        channel: "internal_tool"
        schedule: "weekly"
    deduplication:
      enabled: true
      method: "semantic_similarity"
      threshold: 0.92

  active_learning:
    strategy: "uncertainty_sampling"
    selection_criteria:
      metric: "entropy"
      top_k: 20  # 每周选取前 20 个最不确定的样本
      min_confidence_gap: 0.1
    fallback_strategy: "query_by_committee"
    committee_size: 3

  annotation:
    mode: "HITL"
    annotators:
      required_count: 2
      min_kappa_threshold: 0.6
      target_kappa: 0.8
    quality_gates:
      - gate: "pairwise_kappa"
        metric: "cohens_kappa"
        action_on_fail: "escalate_to_arbiter"
      - gate: "sample_audit"
        ratio: 0.1
        action_on_fail: "retrain_annotators"
    arbitration:
      enabled: true
      arbiter: "senior_qe"

  test_set_maintenance:
    versioning: true
    add_rules:
      min_coverage_gain_pct: 2.0
      require_annotations: 2
    retire_rules:
      consecutive_miss_periods: 4
      min_period_weeks: 8
    weight_adjustment:
      frequency: "monthly"
      factors: ["business_frequency", "error_impact_severity"]

  metrics:
    pipeline_efficiency:
      - "feedback_to_annotation_hours"
      - "annotation_to_testset_days"
      - "kappa_score_trend"
    quality_impact:
      - "coverage_pct"
      - "eval_score_delta"
      - "production_regression_count"
```

以及标注流程、质量门禁、维护规则的详细说明。

产出记录

将 AI 返回的结果填入下方模板，形成可追踪的项目文档。

反馈回流与评测集更新记录

本期反馈统计

反馈类型	数量	已标注	已加入评测集
新场景	___	___	___
回归问题	___	___	___
边缘案例	___	___	___
合计	___	___	___

新增评测用例

#	来源	输入	期望输出	分类	标注人
1	___	___	___	___	___
2	___	___	___	___	___
___	___	___	___	___	___

评测集维护记录

新增用例数：___
淘汰用例数：___
权重调整数：___
评测集版本：v → v

闭环验证

回流后评测得分变化：___ → ___
覆盖率提升：% → %

维护人 / 日期：___ / ___

查看填写示例

示例场景

【示例】反馈回流——智能客服意图识别（6 月月报）

本期反馈统计

反馈类型	数量	已标注	已加入评测集
新场景	5	5	5
回归问题	2	2	2
边缘案例	5	4	3
合计	12	11	10

新增评测用例

#	来源	输入	期望输出	分类	标注人
1	用户投诉	"我要退货，但是订单号找不到"	refund	新场景	李客服
2	月度采样	"帮我看看这个东西怎么用"	product_inquiry	边缘	张明
3	回归检测	"快递到了但东西坏了"	complaint	回归	王工

评测集维护记录

新增用例数：10
淘汰用例数：3（过时的物流查询格式）
权重调整数：5（提高边缘案例权重）
评测集版本：v1.2 → v1.3

闭环验证

回流后评测得分变化：3.9 → 4.0（+0.1）
覆盖率提升：82% → 88%

维护人 / 日期：张明 / 2026-06-30

自检 Checklist

是否有自动化的反馈收集机制？
标注流程是否可持续（不是一次性的）？
是否有评测集版本管理？
回流频率是否合理？

衍生动作

机制就绪：进入模型升级决策框架
反馈量不足：先建立反馈激励机制

作者手记

用户反馈是免费的评测集。很多团队花大量时间构造评测用例，却忽视了真实用户产生的数据。一个简单的"这个回答对您有帮助吗"按钮，价值超过任何人工设计的测试用例。

← 返回运营期

触发场景

输入清单

产出记录

反馈回流与评测集更新记录

本期反馈统计

新增评测用例

评测集维护记录

闭环验证

【示例】反馈回流——智能客服意图识别（6 月月报）

本期反馈统计

新增评测用例

评测集维护记录

闭环验证

自检 Checklist

衍生动作

作者 手记

作者手记