1. 探索期 · WorkKit

数据可得性盘点

PM 工程

盘点现有数据资产，判断是否具备启动 AI 项目的数据基础

触发场景

AI 适用性评估中"数据可得性"维度评分为中或低时，需要做一轮数据盘点。也可以在任何 AI 项目启动前主动执行，确认数据基础是否扎实。

输入清单

◆ 业务问题所需的数据类型清单
◆ 现有数据源列表（数据库、API、文件、第三方）
◆ 数据量级（行数、文件数）
◆ 数据质量初步判断（缺失率、准确性、时效性）

▶ 提示词

你是一位数据工程顾问。我正在评估一个 AI 项目的数据基础，请帮我做数据可得性分析。

项目描述：
{{PROJECT_DESCRIPTION}}

所需数据类型：
{{REQUIRED_DATA_TYPES}}

现有数据源：
{{EXISTING_DATA_SOURCES}}

请分析：
1. **数据覆盖度**：现有数据能覆盖业务需求的多少比例？
2. **数据质量**：缺失率、准确性、时效性评估
3. **数据量级**：是否足够支持 AI 训练/RAG 检索？
4. **获取成本**：需要多长时间/多少钱才能补齐数据缺口？
5. **合规风险**：数据使用是否有法律/隐私约束？

给出结论：数据就绪 / 需补充 / 数据不可用

产出记录

将 AI 返回的结果填入下方模板，形成可追踪的项目文档。

数据可得性盘点记录

项目描述：___

数据源盘点

数据类型	来源	量级	质量评估	覆盖度
___	___	___	___	___%
___	___	___	___	___%
___	___	___	___	___%

关键发现

数据覆盖度：___%（目标 ≥ 80%）
主要质量风险：___
合规风险：___
补充数据所需时间/成本：___

综合结论

结论：数据就绪 / 需补充 / 数据不可用
数据缺口清单：___
补充计划（如需补充）：___
评估人 / 日期：___ / ___

查看填写示例

示例场景

【示例】数据可得性盘点——智能客服意图识别

项目描述：客服中心 AI 意图识别，需标注历史工单的意图类别

数据源盘点

数据类型	来源	量级	质量评估	覆盖度
历史来电工单	CRM 系统	20,000 条	缺失率 5%，时效性好	82%
在线聊天记录	客服 IM	8,000 条	缺失率 2%，含粤语/英语	65%
意图分类标签	人工标注（新）	500 条	标注一致率 92%	—

关键发现

数据覆盖度：82%（目标 ≥ 80%）
主要质量风险：粤语和英语工单标注不足，可能导致小语种意图识别失败
合规风险：工单含电话号码，需脱敏后使用
补充数据所需时间/成本：500 条粤语/英语标注，约 2 周 / ¥5,000

综合结论

结论：需补充
数据缺口清单：粤语 200 条、英语 300 条、边缘场景 100 条
补充计划：2 周内完成标注，由客服团队 3 人协作
评估人 / 日期：张明 / 2026-04-13

自检 Checklist

是否覆盖了所有必要的数据维度？
数据质量问题是否会被 AI 放大（垃圾进垃圾出）？
补充数据的成本是否在项目预算内？
数据合规是否已评估？

衍生动作

数据就绪：进入定义期，开始评测集设计
需补充：制定数据补充计划，评估时间/成本
数据不可用：重新评估项目可行性，考虑替代方案

作者手记

数据盘点最怕"我以为有"。很多团队在设计阶段假设数据存在，到开发阶段才发现关键数据缺失或质量不够。建议在这个阶段就实际跑一下数据样本，而不是只看数据字典。

← 返回探索期

触发场景

输入清单

产出记录

数据可得性盘点记录

数据源盘点

关键发现

综合结论

【示例】数据可得性盘点——智能客服意图识别

数据源盘点

关键发现

综合结论

自检 Checklist

衍生动作

作者 手记

作者手记