1. 探索期 · WorkKit
数据可得性盘点
PM
工程
盘点现有数据资产,判断是否具备启动 AI 项目的数据基础
触发场景
AI 适用性评估中"数据可得性"维度评分为中或低时,需要做一轮数据盘点。也可以在任何 AI 项目启动前主动执行,确认数据基础是否扎实。
输入清单
- ◆ 业务问题所需的数据类型清单
- ◆ 现有数据源列表(数据库、API、文件、第三方)
- ◆ 数据量级(行数、文件数)
- ◆ 数据质量初步判断(缺失率、准确性、时效性)
▶ 提示词
你是一位数据工程顾问。我正在评估一个 AI 项目的数据基础,请帮我做数据可得性分析。
项目描述:
{{PROJECT_DESCRIPTION}}
所需数据类型:
{{REQUIRED_DATA_TYPES}}
现有数据源:
{{EXISTING_DATA_SOURCES}}
请分析:
1. **数据覆盖度**:现有数据能覆盖业务需求的多少比例?
2. **数据质量**:缺失率、准确性、时效性评估
3. **数据量级**:是否足够支持 AI 训练/RAG 检索?
4. **获取成本**:需要多长时间/多少钱才能补齐数据缺口?
5. **合规风险**:数据使用是否有法律/隐私约束?
给出结论:数据就绪 / 需补充 / 数据不可用
产出记录
将 AI 返回的结果填入下方模板,形成可追踪的项目文档。
数据可得性盘点记录
项目描述:___
数据源盘点
| 数据类型 | 来源 | 量级 | 质量评估 | 覆盖度 |
|---|---|---|---|---|
| ___ | ___ | ___ | ___ | ___% |
| ___ | ___ | ___ | ___ | ___% |
| ___ | ___ | ___ | ___ | ___% |
关键发现
- 数据覆盖度:___%(目标 ≥ 80%)
- 主要质量风险:___
- 合规风险:___
- 补充数据所需时间/成本:___
综合结论
- 结论:数据就绪 / 需补充 / 数据不可用
- 数据缺口清单:___
- 补充计划(如需补充):___
- 评估人 / 日期:___ / ___
查看填写示例
示例场景
【示例】数据可得性盘点——智能客服意图识别
项目描述:客服中心 AI 意图识别,需标注历史工单的意图类别
数据源盘点
| 数据类型 | 来源 | 量级 | 质量评估 | 覆盖度 |
|---|---|---|---|---|
| 历史来电工单 | CRM 系统 | 20,000 条 | 缺失率 5%,时效性好 | 82% |
| 在线聊天记录 | 客服 IM | 8,000 条 | 缺失率 2%,含粤语/英语 | 65% |
| 意图分类标签 | 人工标注(新) | 500 条 | 标注一致率 92% | — |
关键发现
- 数据覆盖度:82%(目标 ≥ 80%)
- 主要质量风险:粤语和英语工单标注不足,可能导致小语种意图识别失败
- 合规风险:工单含电话号码,需脱敏后使用
- 补充数据所需时间/成本:500 条粤语/英语标注,约 2 周 / ¥5,000
综合结论
- 结论:需补充
- 数据缺口清单:粤语 200 条、英语 300 条、边缘场景 100 条
- 补充计划:2 周内完成标注,由客服团队 3 人协作
- 评估人 / 日期:张明 / 2026-04-13
自检 Checklist
- 是否覆盖了所有必要的数据维度?
- 数据质量问题是否会被 AI 放大(垃圾进垃圾出)?
- 补充数据的成本是否在项目预算内?
- 数据合规是否已评估?
衍生动作
- 数据就绪:进入定义期,开始评测集设计
- 需补充:制定数据补充计划,评估时间/成本
- 数据不可用:重新评估项目可行性,考虑替代方案
作者 手记
数据盘点最怕"我以为有"。很多团队在设计阶段假设数据存在,到开发阶段才发现关键数据缺失或质量不够。建议在这个阶段就实际跑一下数据样本,而不是只看数据字典。