5. 运营期 · WorkKit
反馈回流与评测集更新
PM
工程
建立用户反馈回流到评测集的闭环机制
触发场景
上线后用户会产生大量真实输入。其中边缘案例、新查询类型、不良输出都是宝贵的评测集素材。需要建立机制把这些真实场景回流到评测集。
输入清单
- ◆ 用户反馈渠道数据
- ◆ 当前评测集
- ◆ 漂移监控报告
▶ 提示词 基础版 / 进阶版
你是一位 AI 质量工程师。请帮我设计反馈回流机制。
当前评测集信息:
- 用例数量:{{TEST_CASE_COUNT}}
- 覆盖率评估:{{COVERAGE}}
反馈来源:
- 用户点赞/点踩数据
- 用户投诉和报告
- 运营团队标注的不良输出
请设计:
1. **反馈分类**:
- 新场景(评测集未覆盖)
- 回归问题(之前通过现在失败)
- 边缘案例(已知但权重不足)
2. **回流流程**:
- 反馈收集 → 分类 → 标注 → 加入评测集
- 谁负责标注?频率?
3. **评测集维护规范**:
- 新增用例的审核标准
- 过时用例的淘汰规则
- 用例权重调整策略
4. **闭环验证**:回流后如何验证评测集质量提升
产出记录
将 AI 返回的结果填入下方模板,形成可追踪的项目文档。
反馈回流与评测集更新记录
本期反馈统计
| 反馈类型 | 数量 | 已标注 | 已加入评测集 |
|---|---|---|---|
| 新场景 | ___ | ___ | ___ |
| 回归问题 | ___ | ___ | ___ |
| 边缘案例 | ___ | ___ | ___ |
| 合计 | ___ | ___ | ___ |
新增评测用例
| # | 来源 | 输入 | 期望输出 | 分类 | 标注人 |
|---|---|---|---|---|---|
| 1 | ___ | ___ | ___ | ___ | ___ |
| 2 | ___ | ___ | ___ | ___ | ___ |
| ___ | ___ | ___ | ___ | ___ | ___ |
评测集维护记录
- 新增用例数:___
- 淘汰用例数:___
- 权重调整数:___
- 评测集版本:v → v
闭环验证
- 回流后评测得分变化:___ → ___
- 覆盖率提升:% → %
维护人 / 日期:___ / ___
查看填写示例
示例场景
【示例】反馈回流——智能客服意图识别(6 月月报)
本期反馈统计
| 反馈类型 | 数量 | 已标注 | 已加入评测集 |
|---|---|---|---|
| 新场景 | 5 | 5 | 5 |
| 回归问题 | 2 | 2 | 2 |
| 边缘案例 | 5 | 4 | 3 |
| 合计 | 12 | 11 | 10 |
新增评测用例
| # | 来源 | 输入 | 期望输出 | 分类 | 标注人 |
|---|---|---|---|---|---|
| 1 | 用户投诉 | "我要退货,但是订单号找不到" | refund | 新场景 | 李客服 |
| 2 | 月度采样 | "帮我看看这个东西怎么用" | product_inquiry | 边缘 | 张明 |
| 3 | 回归检测 | "快递到了但东西坏了" | complaint | 回归 | 王工 |
评测集维护记录
- 新增用例数:10
- 淘汰用例数:3(过时的物流查询格式)
- 权重调整数:5(提高边缘案例权重)
- 评测集版本:v1.2 → v1.3
闭环验证
- 回流后评测得分变化:3.9 → 4.0(+0.1)
- 覆盖率提升:82% → 88%
维护人 / 日期:张明 / 2026-06-30
自检 Checklist
- 是否有自动化的反馈收集机制?
- 标注流程是否可持续(不是一次性的)?
- 是否有评测集版本管理?
- 回流频率是否合理?
衍生动作
- 机制就绪:进入模型升级决策框架
- 反馈量不足:先建立反馈激励机制
作者 手记
用户反馈是免费的评测集。很多团队花大量时间构造评测用例,却忽视了真实用户产生的数据。一个简单的"这个回答对您有帮助吗"按钮,价值超过任何人工设计的测试用例。