YYMuse
1. 探索期 · WorkKit

数据可得性盘点

PM 工程

盘点现有数据资产,判断是否具备启动 AI 项目的数据基础

触发场景

AI 适用性评估中"数据可得性"维度评分为中或低时,需要做一轮数据盘点。也可以在任何 AI 项目启动前主动执行,确认数据基础是否扎实。

输入清单

  • 业务问题所需的数据类型清单
  • 现有数据源列表(数据库、API、文件、第三方)
  • 数据量级(行数、文件数)
  • 数据质量初步判断(缺失率、准确性、时效性)
提示词
你是一位数据工程顾问。我正在评估一个 AI 项目的数据基础,请帮我做数据可得性分析。

项目描述:
{{PROJECT_DESCRIPTION}}

所需数据类型:
{{REQUIRED_DATA_TYPES}}

现有数据源:
{{EXISTING_DATA_SOURCES}}

请分析:
1. **数据覆盖度**:现有数据能覆盖业务需求的多少比例?
2. **数据质量**:缺失率、准确性、时效性评估
3. **数据量级**:是否足够支持 AI 训练/RAG 检索?
4. **获取成本**:需要多长时间/多少钱才能补齐数据缺口?
5. **合规风险**:数据使用是否有法律/隐私约束?

给出结论:数据就绪 / 需补充 / 数据不可用

产出记录

将 AI 返回的结果填入下方模板,形成可追踪的项目文档。

数据可得性盘点记录

项目描述:___

数据源盘点

数据类型 来源 量级 质量评估 覆盖度
___ ___ ___ ___ ___%
___ ___ ___ ___ ___%
___ ___ ___ ___ ___%

关键发现

  • 数据覆盖度:___%(目标 ≥ 80%)
  • 主要质量风险:___
  • 合规风险:___
  • 补充数据所需时间/成本:___

综合结论

  • 结论:数据就绪 / 需补充 / 数据不可用
  • 数据缺口清单:___
  • 补充计划(如需补充):___
  • 评估人 / 日期:___ / ___
查看填写示例
示例场景

【示例】数据可得性盘点——智能客服意图识别

项目描述:客服中心 AI 意图识别,需标注历史工单的意图类别

数据源盘点

数据类型 来源 量级 质量评估 覆盖度
历史来电工单 CRM 系统 20,000 条 缺失率 5%,时效性好 82%
在线聊天记录 客服 IM 8,000 条 缺失率 2%,含粤语/英语 65%
意图分类标签 人工标注(新) 500 条 标注一致率 92%

关键发现

  • 数据覆盖度:82%(目标 ≥ 80%)
  • 主要质量风险:粤语和英语工单标注不足,可能导致小语种意图识别失败
  • 合规风险:工单含电话号码,需脱敏后使用
  • 补充数据所需时间/成本:500 条粤语/英语标注,约 2 周 / ¥5,000

综合结论

  • 结论:需补充
  • 数据缺口清单:粤语 200 条、英语 300 条、边缘场景 100 条
  • 补充计划:2 周内完成标注,由客服团队 3 人协作
  • 评估人 / 日期:张明 / 2026-04-13

自检 Checklist

  • 是否覆盖了所有必要的数据维度?
  • 数据质量问题是否会被 AI 放大(垃圾进垃圾出)?
  • 补充数据的成本是否在项目预算内?
  • 数据合规是否已评估?

衍生动作

  • 数据就绪:进入定义期,开始评测集设计
  • 需补充:制定数据补充计划,评估时间/成本
  • 数据不可用:重新评估项目可行性,考虑替代方案

作者 手记

数据盘点最怕"我以为有"。很多团队在设计阶段假设数据存在,到开发阶段才发现关键数据缺失或质量不够。建议在这个阶段就实际跑一下数据样本,而不是只看数据字典。

← 返回 探索期