1. 探索期 · WorkKit

Token 成本与延迟预估

PM 架构

在技术路线确定前，量化 AI 调用的成本结构和响应延迟

触发场景

当技术路线涉及 API 调用（无论是大模型 API 还是嵌入 API），需要在上线前量化成本。这个工序包帮你建立一个粗略但实用的成本模型。

输入清单

◆ 预估日活用户数
◆ 每用户每天预估调用次数
◆ 单次调用的平均输入/输出 Token 数
◆ 候选模型的价格表

▶ 提示词

你是一位 AI 成本分析师。请帮我建立一个 Token 成本预估模型。

输入参数：
- 日活用户（DAU）：{{DAU}}
- 每用户日均调用次数：{{CALLS_PER_USER}}
- 单次调用平均输入 Token：{{INPUT_TOKENS}}
- 单次调用平均输出 Token：{{OUTPUT_TOKENS}}

候选模型：
{{MODEL_LIST_WITH_PRICING}}

请计算：
1. 每日/每月总 Token 消耗
2. 每日/每月总成本（按模型分别计算）
3. 成本敏感度分析：DAU 增长 10 倍后的成本
4. 延迟预估：基于模型类型的平均响应时间
5. 优化建议：如何减少 Token 消耗（prompt 压缩、缓存等）

产出记录

将 AI 返回的结果填入下方模板，形成可追踪的项目文档。

Token 成本预估记录

候选模型：___

基础参数

参数	预估值
DAU	___
每用户日均调用次数	___
单次输入 Token 均值	___
单次输出 Token 均值	___

成本估算

模型	月 Token 消耗	月成本（元）	延迟预估
___	___	___	___
___	___	___	___

敏感度分析

DAU 增长 10 倍后月成本：___
成本优化方案：___

结论

选定模型：___
月度预算：___
监控指标：___
评估人 / 日期：___ / ___

查看填写示例

示例场景

【示例】Token 成本预估——智能客服意图识别

候选模型：Qwen-Turbo（通义千问）

基础参数

参数	预估值
DAU	5,000
每用户日均调用次数	3 次
单次输入 Token 均值	200
单次输出 Token 均值	50

成本估算

模型	月 Token 消耗	月成本（元）	延迟预估
Qwen-Turbo	3,750 万	¥2,400	300–500ms
Qwen-Plus	3,750 万	¥7,500	500–800ms

敏感度分析

DAU 增长 10 倍（5 万）后月成本：¥24,000（仍在预算内）
成本优化方案：对高频意图（退款/物流）设置缓存，预计节省 30% Token

结论

选定模型：Qwen-Turbo（先），若准确率不达标升级到 Qwen-Plus
月度预算：¥3,000（含 25% buffer）
监控指标：日 Token 消耗、日均成本
评估人 / 日期：张明 / 2026-04-12

自检 Checklist

是否使用了实际模型价格（而不是估算）？
是否考虑了规模化后的成本增长？
延迟是否符合用户体验要求（通常 < 3 秒）？
是否有缓存/优化策略来降低成本？

衍生动作

成本在预算内：记录模型选择，进入定义期
成本超出预算：考虑更小的模型或 prompt 优化
延迟不可接受：考虑流式输出或模型降级策略

作者手记

Token 成本是 AI 项目里最容易"温水煮青蛙"的支出。建议建立一个监控仪表盘，实时追踪 Token 消耗。很多团队到月底看到账单才惊讶，但那时用户已经形成了使用习惯，降本的空间很小了。

← 返回探索期

触发场景

输入清单

产出记录

Token 成本预估记录

基础参数

成本估算

敏感度分析

结论

【示例】Token 成本预估——智能客服意图识别

基础参数

成本估算

敏感度分析

结论

自检 Checklist

衍生动作

作者 手记

作者手记